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内 容 简 介 


统计 学 习 理论 是 20 世 纪 90 年 代 逐 渐 成 熟 的 机 器 学 习 理论 ,以 这 种 理论 为 
基础 的 支持 向 量 机 与 以 往 的 学 习 机 器 相 比 具 有 支持 小 样本 、 不 会 陷 人 局 部 势 
井 、 重 棒 性 好 以 及 运算 成 本 低 等 优势 . 实现 这 种 理论 的 支持 向 量 机 算法 已 经 成 
为 机 需 学 习 和 知识 挖掘 的 标准 工具 . 

自从 2001 年 支持 向 量 机 被 首次 用 于 蛋白 质 二 级 结构 的 预测 以 来 , 这 种 算 
法 发 展 到 和 蛋白质 的 结构 类 型 、 亚 细胞 结构 和 膜 蛋 白 的 结构 等 领域 的 预测 中 . 本 
书 详细 介绍 了 依据 统计 学 习 理 论 构建 支持 向 量 机 的 方法 、 各 种 相关 软件 原理 和 
使 用 方法 , 并 以 二 级 结构 和 结构 域 为 例 介绍 了 以 支持 向 量 机 为 工具 预测 蛋白 
质 结构 的 方法 . 书 中 使 用 了 大 量 的 原创 性 实验 结果 , 理论 联系 实际 , 详细 阐述 
了 以 支持 向 量 机 为 工具 预测 蛋白 质 结构 的 全 过 程 . 

本 书 适 合 从 事 蛋 白质 结构 基础 研究 的 学 生 和 科技 工作 者 阅读 . 
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蛋白 质 由 氨基 酸 残 基线 性 序列 构成 , 折 有 登 成 特定 的 空间 构象 后 , 蛋白 质 就 具有 
相应 生物 学 活性 和 功能 . 了 解 氨 基 酸 残 基 序 列 与 其 空间 结构 的 关系 , 是 全 面 认识 蛋 
白质 结构 和 其 生物 学 功能 的 关系 的 重要 前 提 . 近 些 年 来 , 蛋白 质 序列 数据 库 的 数据 
积累 速度 非常 快 , 与 之 相 比 , 蛋白 质 结构 数据 库 的 数据 积累 速度 远 不 及 序列 数据 库 
的 数据 积累 速度 . 尽管 蛋白 质 结构 测定 技术 有 了 较为 显著 的 进展 , 但 是 通过 实验 方 
法 确定 蛋白 质 结 构 的 过 程 仍然 非常 复杂 , 实验 周期 很 长 . 

另外 , 随 着 DNA 测序 技术 的 发 展 , 人 类 基因 组 及 很 多 模式 生物 基因 组 已 经 或 
将 要 完全 测序 , DNA 序列 数量 将 会 急 增 . 由 于 DNA 序列 分 析 技术 和 基因 识别 方法 
的 进步 , 人 们 可 以 从 DNA 序列 直接 推导 出 大 量 的 蛋白 质 序 列 , 这 将 导致 蛋白 质 序 
列 数据 数量 急剧 增加 . 了 解 了 这 些 序列 的 结构 , 可 以 使 它们 直接 为 人 类 服务 . 

氨基 酸 残 基 序列 的 结构 分 析 是 对 生物 学 家 的 极 大 挑战 . 20 世纪 60 年 代 后 期 ， 
Anfinsen 首先 发 现 去 折 登 蛋白 或 者 说 变性 蛋白 质 在 允许 重新 折 登 的 实验 条 件 下 可 
以 重新 折 登 到 原来 的 结构 , 这 种 天 然 结构 对 于 蛋白 质 行 使 生物 功能 具有 重要 作用 ， 
和 蛋白质 只 有 在 折 有 登 成 其 天 然 结构 的 时 候 才 能 具有 完全 的 生物 活性 . 因此 Anfinsen 
提出 了 重 白 质 折 登 信 息 隐 含 在 恒 白 质 的 一 级 结构 中 的 观 抬 . 以 这 种 观点 为 基础 , 通 
过 对 蛋白 质 一 级 结构 的 研究 , ROS Be a, 仅 通过 一 级 结构 信息 就 能 预测 蛋 
白质 空间 结构 . 

蛋白 质 结 构 预测 主要 有 两 大 类 方法 .一 类 是 蛋白 质 分 子 特 性 理论 分 析 方 法 或 
从 头 算 方 法 , 通过 理论 计算 (如 分 子 力学 、 分 子 动力 学 计算 ) 进行 结构 预测 . 该 类 方 
法 假设 折 登 后 的 蛋白 质 取 能 量 最 低 的 构象 . 从 原则 上 来 说 , 人 们 可 以 根据 物理 、 化 
学 原理 , 通过 计算 来 进行 结构 预测 ， 男 一 类 蛋白质 结构 预测 的 方法 是 统计 学 方法 . 
该 类 方法 对 已 知 结构 的 蛋白 质 进 行 统计 分 析 、 建 立 序列 到 结构 的 映射 模型 、 进 而 根 
据 映 射 模型 对 未 知 结构 的 蛋白 质 直接 从 氨基 酸 序列 预测 结构 . 这 是 进行 蛋白 质 结 
构 预测 较为 成 功 的 一 类 方法 . 这 类 方法 包括 经 验 性 方法 、 结 构 规 律 提取 方法 、 同 源 
模型 化 方法 等 . 统计 学 方法 本 身 就 是 不 确定 性 方法 , 目前 虽然 还 不 能 完全 替代 第 一 
类 方法 而 成 为 预测 蛋白 质 结构 的 主要 方法 , 但 是 发 展 前 景 很 广阔 . 其 中 以 统计 学 习 
理论 为 基础 的 支持 向 量 机 预测 蛋白 质 结构 的 方法 发 展 非常 迅速 . 

统计 学 习 理 论 是 在 20 世纪 90 年 代 逐 渐 成 熟 的 机 器 学 习 理 论 , 以 这 种 理论 为 
基础 的 支持 向 量 机 与 以 往 的 学 习 机 器 相 比 具有 支持 小 样本 、 不 会 陷入 局 部 势 井 、 具 
有 很 好 的 鲁 棒 性 以 及 运算 成 本 低 等 优势 . 实现 这 种 理论 的 支持 向 量 机 算法 已 经 成 
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为 机 器 学 习 和 知识 挖掘 的 重要 工具 . 从 2001 年 支持 向 量 机 首次 被 运用 进行 蛋白 质 
二 级 结构 的 预测 以 来 , 这 种 算法 已 经 被 用 于 对 于 蛋白 质 的 结构 类 型 、 亚 细胞 结构 和 
膜 蛋白 的 结构 等 领域 的 预测 中 . 

本 书 一 共 包含 8 章 , 阐述 三 部 分 内 容 , 包括 生物 信息 学 基本 知识 、 蛋 白质 结构 
预测 基本 知识 、 蛋 白质 二 级 结构 和 结构 域 预测 技术 、 支 持 向 量 机 算法 以 及 相应 软件 
的 使 用 方法 和 实验 步骤 , 由 浅 及 深 , 步 步 深 入 , 系统 痔 述 了 运用 支持 网 量 机 预测 蛋 
白质 二 级 结构 和 结构 域 的 基本 原理 和 过 程 . 有 兴趣 的 读者 可 以 按照 本 文 描述 的 实 
验 步 又 和 相应 参数 完全 重复 整个 实验 过 程 . 第 一 部 分 包括 第 1 章 和 第 2 章 , 主要 对 
蛋白 质 二 级 结构 和 结构 域 预测 以 及 知识 背景 进行 简要 介绍 . 第 二 部 分 包含 第 3 章 
到 第 6 章 , 系统 痔 述 了 统计 学 习 理 论 、 以 这 种 理论 为 基础 的 学 习 算法 —— 支持 向 
量 机 、 支 持 向 量 机 构造 方法 以 及 实现 支持 向 量 机 算法 的 程序 Libsvm. 最 后 一 部 分 
包括 第 7 章 和 第 8 章 , 这 一 部 分 详细 论述 了 运用 支持 向 量 机 方法 进行 蛋白 质 二 a 
结构 预测 和 结构 类 型 预测 的 实验 过 程 和 最 终结 果 . 

由 于 作者 水 平 有 限 、 成 文 仓促 , 文中 难免 出 现 这 样 那样 的 疏漏 和 错误 . 书 中 从 
妥 之 处 敬 请 读者 批评 指正 ! 


孙 向 东 NRE BRE Hie 
2008 年 于 北京 


Va 

RR et SINE ow oo as ec ens ens esos ts sss Bnei sts Bape eee 1 
T 了 和 蛋 自 质 预测 基本 方法 简介 «10 cee eee eee eee eee eee es 1 

1.2 蛋白 质 二 级 结构 和 结构 域 预测 方法 简介 .pp 2 
1 5 
77a We 3. | =) = — eee en ‘Saeko a2 5 
2.1.1 AME BENE. BA. ARAB. - eee eee e eee 5 
国生 7 
OSS eI OO AS SS reas eee 8 

DHA BEE -- oe cee eee cece eee cent esate cee nteeceesenenseens 9 

2.2 和 蛋白 质 序 列 、 结 构 与 功能 的 关系 .pp ti 

ye ee || > eee ene 13 
i PR TA ae aoe om an Saat es ask kee 13 

ED SERB BAI on nee oe neecicienien epee sa eaemes apne eeeeesennenns 15 
和 下 将 16 

2.3.4 ”应 用 于 生物 信息 学 领域 的 机 器 学 习 方 法 .pp 16 
理论 21 
Bad Fy UI RTI Ty ae nnn co 5 ee mete cteinlinns ope einitalaie aieainiaie vie ois ee wae eee tenes 21 
SMR face cae inte eminem nmin ns deneninieyei ge OS ee ORD A Te OE aos DaGraty oe wns 21 

SERS 20S cee 25 SE eens et mae ec eee 22 

eee ad EA PARTY (oo isto oct treat ane ter deat e oe TERR. BG ee 23 

3.1.4 经 验 风 险 最 水 化 原则 cece ccc cee cece cece cece cence ences 24 

eee eee MES Ey Sale ee a ene ae eas win ees ois Sn TR ides oe 24 
Rts ISN m0 6 oso n 88 e006 gibed maya ee aed Ans sb So SERN a Re on care 25 

et Peer UU AEBS 6 sii.) EAN. 25 
人 25 

a PEAS TARAS LF nt sees ove e eats c ee T eased suse ecsetvctecs 28 

ea ee ATE SHED BEI EIO Ooms koto aah ad kes bb ges none e th ye aes 30 
本 机 34 
本 34 


4.2 


第 5 章 
5.1 
5.2 
5.3 


第 6 章 
6.1 


6.2 


6.3 


6.4 
6.5 
6.6 
6.7 
第 7 章 
7.1 


AA PASAY, Boo ee ee ee Pn ee tt al 34 
A.1.2 拉 格 朗 日 理论 .pp 35 
4.1.3 KR 全 36 
支持 向 量 机 .0 a7 
4.2.1 支持 向 量 机 基本 原理 简介 - eee ee ce eee eee ee eens 37 
BBD BERRIES «rns ta nde casas eos dade none» + ole «nn 38 
A993  SEBRUEGOS oo eee ee seas eee ake ee tee ee 47 
4.2.4 多 重 分 类 .1 52 
应 用 于 支持 向 量 机 的 主要 算法 .pp 55 
支持 向 量 机 算法 中 目前 的 研究 状况 55 
分 解 算 法 .人 56 
顺序 最小 优化 算法 222 ee ee cece es eee ee eo ne renin cin aie ee glenn one 57 
53.1 BU MAAC BE - «ee es nie ole ee 57 
5.3.2 Pi RIS RIASCAGIIE +--+ +e a ee oe 58 
5.3.3 ”选择 待 优 化 拉 格 朗 日 乘 子 的 启发 式 方法 .pp 59 
5.3.4 每 次 最 小 优化 后 的 重 置 工 作 .…………… ee eee cere cece ee eens 59 
5.3.5 顺序 最 小 优化 算法 的 特点 和 优势 人 60 
Libsvm 简介 二 61 
公 夭 于 61 
6.1.1 C- 支持 向 量 分 类 (三 元 ) 和 0 61 
6.1.2 v 支持 向 量 分 类 医 元 ) 人 61 
一 规划 间 题 的 解 痪 写本 下 本 罗 人 62 
6.2.1 C-SVC 的 分 解 算 法 .Ne 62 
G22 工作 集 的 选择 和 停止 循环 的 标准 bo Ges 4 'e a) ew ete oe mbes Sp ere eae a8 Maas 63 
6.2.3 v 支持 向 量 分 类 的 分 解 方法 .pp 64 
6.2.4 解析 解法 .vv 65 
6.2.5 D 和 p 9 = 67 
a ee er eee eee re ++ 67 
6.3.1 se: |: visa 67 
Os SS = = 69 
2 69 
Se Ci: eee 70 
PU pt? ore ern 70 
预测 蛋白 质 结构 中 运用 Libsvm 的 基本 操作 方法 71 
宇和 目 质 三 级 结构 预测 且 arm risr 73 
gS 02: Be eee SE 73 


Eo ae “Vv 

7.1.2 ”蛋白质 的 二 级 结构 特征 pp 74 

7.1.3 FARE RR. =P SRB ----- eee eee ee cee eee e eee eee eee 76 

te ie 8 eS Eat Wl wn oc ens sean ve ow iden nek gam ROR Reese dae eed ae a 76 
7.2.1 DSSP 数据 库 中 的 蛋白 质 二 级 结构 特征 识别 pp 77 

ee Pe Sirs Sa AE RE EDs 5 255 3 yb a nin Be mene ewe amey eS eae set eee a 80 

7.2.3 DEFINE 算法 对 于 蛋 自 质 三 级 结 梅 的 定义 ER 站 83 

7.2.4 P-Cruve 方法 86 

7.3 和 蛋白质 二 级 结构 预测 .pp 89 
7.3.1 |: oo 89 

7.3.2 “样本 集 的 选择 .pt 92 

(i le Co 9 eee een cece reer aha meas 93 

7.3.4 运用 支持 向 量 机 进行 蛋白 质 结构 预测 的 样本 提取 方法 与 编码 规则 .…… …: 94 

73.5 BRE PRUTE EEG TT cnc cee ee eee eee e nec eens 98 

7.3.6 蛋白质 二 级 结构 预测 结果 .9 101 

ee eral ir Hy Pe ed TED owe eee ee eae 108 
O80 2) Se een ee ee ee re. 108 

8.2 FERPA «ee eee eee reece eee teen tent enn eeees 110 
8.2.1 DALI 算法 和 FSSP 数据 库 —— 距离 矩阵 比 对 的 蛋白 质 结构 比较 .……… 110 

A tg Re Ce nee) ee ee 113 

8.2.33 SCOP AGEE-::---- 人 118 

82:4. SGOPsGATH Al FSSP 的 关系 ae 119 

8.3 蛋白 质 结构 域 的 支持 向 量 机 预测 方法 eee nd 
8.3.1 蛋白质 结构 域 预测 中 的 样本 集 选择 .…….……………… eee eee eee eee 119 

8.3.2 编码 方法 .pp 120 

ge SA EE ED yeaa ee ennai 121 

8.3.4 “分 类 器 设计 与 软件 使 用 方法 .……… cee eee reece eee eee 125 
了 126 
| 152 
STEEL 结论 152 

52 讨 设 二 153 
外 156 
rn meee e505, 5. os AES AE Ba ee AD. OTL 165 
外 166 
附 表 3 蛋白 质 结 构 域 拓扑 层 预测 样本 集 .pp 170 
附 表 4 ， 蛋白质 结构 域 同 源 超 族 层 预测 样本 集 .pp 173 
Mize 5 FBR RAR BASE ... Ra 179 


i 
| 
isi 
uns 
WJ 


tal 

ose + 
i 

y 

Sa ‘ 


we? 
*) 


x + a2 


- aA 
a. ae 


+ kt | ~* 


一 


eee TARE | 


* 


S15 晶 白 质 结 构 预测 概述 


1.1 蛋白 质 预 测 基本 方法 简介 


生物 信息 学 是 近年 来 最 有 活力 的 生物 学 研究 领域 之 一 , 人 们 从 生物 信息 的 研究 
中 获得 了 对 生命 本 质 更 丰富 的 知识 和 更 深刻 的 理解 . 核酸 序列 中 列 含 着 生命 的 基 
本 信息 , 这 些 信 息 是 自然 界 留 给 人 类 的 、 解 读 生命 的 “天 书 ”. 理解 这 本 天 书 是 最 终 
了 解 自然 了 解 生 命 、 了 解 人 类 自身 的 重要 途径 , 是 人 类 从 必然 王国 到 自由 王国 飞 
跃 的 基本 前 提 之 一 . 

由 基因 决定 的 蛋白 质 执行 着 生物 体内 各 种 重要 的 功能 , 如 生物 化 学 反应 的 催 
化 、 营 养 物 质 的 输 运 、 生 长 和 分 化 控制 、 生 物 信号 的 识别 和 传递 等 . 基因 确定 了 组 
成 蛋白 质 的 氨基 酸 序列 . 虽然 蛋白 质 由 氨基 酸 的 线性 序列 组 成 , 但 是 它们 只 有 折 稚 
成 特定 的 空间 构象 才能 具有 相应 的 活性 和 相应 的 生物 学 功能 . 了 解 蛋 白质 的 空间 结 
构 不 仅 有 利于 认识 氨基 酸 残 基 序列 与 空间 结构 的 关系 , 也 有 利于 认识 蛋白 质 的 结构 
与 其 生物 学 功能 的 关系 . 

根据 近 些 年 来 的 经 验 , 蛋白 质 序列 数据 库 数 据 积累 速度 非常 快 , 而 且 还 有 加 快 
的 趋势 . 尽管 蛋白 质 结 构 测定 技术 有 了 较为 显著 的 进展 , 但 是 通过 实验 方法 确定 和 蛋 
白质 结构 的 过 程 仍 然 非 常 复杂 , 实验 周期 很 长 . 另外 , 随 着 DNA 测序 技术 的 发 展 ， 
人 类 基因 组 及 很 多 的 模式 生物 基因 组 已 经 或 将 要 被 完全 测序 , DNA 序列 数量 将 会 
剧 增 , 由 于 DNA 序列 分 析 技 术 和 基因 识别 方法 的 进步 , 人 们 可 以 从 DNA 序列 直 
接 推导 出 大 量 的 蛋白 质 序 列 . 这 意味 着 已 知 序 列 的 蛋白 质数 量 和 已 测定 结构 的 和 蛋 
白质 数量 (如 蛋白质 结构 数据 库 PDB 中 的 数据 ) 的 差距 将 会 越 来 越 大 . 面 对 这 种 和 蛋 
白质 结构 信息 与 DNA 序列 信息 发 展 速度 的 不 平衡 , 人 们 希望 找到 一 些 预 测 方法 ， 
通过 这 些 方法 加 快 蛋白 质 结构 产生 速度 , 缩小 二 者 之 间 的 差距 . 

为 了 缩小 这 种 差距 , 要 么 改进 现 有 的 蛋白 质 测 序 技 术 和 结构 预测 方法 , BEAK 
展 新 的 理论 分 析 方 法 , 这 是 对 生物 学 家 的 极 大 挑战 . 20 世纪 60 年 代 后 期 , Anfinsen 
首先 发 现 去 折 和 登 蛋白 质 或 者 说 变性 蛋白 质 在 允许 重新 折 例 的 实验 条 件 下 可 以 重新 
TBA RRNA, 这 种 天 然 结 构 对 于 蛋白 质 行使 生物 功能 具有 重要 作用 , 蛋白 质 
只 有 在 折 和 登 成 其 天 然 结 构 的 时 候 才 能 具有 完全 的 生物 活性 . 因此 Anfinsen 提出 了 
蛋白 质 折 和 登 的 信息 隐 含 在 蛋白 质 的 一 级 结构 中 的 观点 . 基于 这 种 观点 , 人 们 相信 通 
过 对 蛋白 质 一 级 结构 的 研究 , 发 现 其 折 登 密码 后 能 够 仅 通 过 一 级 结构 信息 就 能 预测 
和 掉 白 质 空间 结构 . 
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到 目前 为 止 , 科学 家 对 于 蛋白 质 结构 预测 进行 了 大 量 的 研究 , CARRS 
预测 蛋白 质 结构 的 方法 蛋白质 结构 预测 主要 有 两 大 类 方法 . 一 类 是 蛋白 质 分子 
特性 的 理论 分 析 方 法 或 从 头 算 方 法 , 通过 理论 计算 (如 分 子 力学 、 分 子 动力 学 计算 ) 
进行 结构 预测 .该 类 方法 假设 折 倒 后 的 蛋白 质 取 能 量 最 低 构象 . 从 原则 上 来 说 , 人 
们 可 以 根据 物理 、 化 学 原理 , 通过 计算 来 进行 结构 预测 . 但 是 这 种 方法 可 操作 性 很 
差 , 主要 有 几 个 原因 和: 

(1) 自然 的 蛋白 质 结 构 和 未 折 登 的 和 蛋白质 结 构 之 间 的 能 量 差 非 常 小 (1lkcal/ 
mol 数量 级 ); 

(2) 蛋白 质 可 能 的 构象 空间 庞大 , 针对 蛋白 质 折 和 登 的 计算 量 非常 大 ; 

(3) 计算 模型 中 和 蛋白质 及 溶剂 系统 的 力 场 参 数 的 不 准确 性 、 无 法 从 数学 上 解决 
局 部 势 井 问题 , 因此 无 法 证 明 某 蛋白 质 分 子 的 构象 是 全 局 自由 能 最 小 的 构象 . 

另 一 类 和 蛋白质 结构 预测 的 方法 是 统计 学 方法 .该 类 方法 对 已 知 结构 的 蛋白 质 
进行 统计 分 析 、 建 立 序列 到 结构 的 映射 模型 、 进 而 根据 映射 模型 对 未 知 结构 蛋白 
质 直 接 从 氨基 酸 序列 预测 结构 . 这 是 进行 蛋白 质 结 构 预 测 较为 成 功 的 一 类 方法 . 这 
一 类 方法 包括 经 验 性 方法 、 结 构 规律 提取 方法 、 同 源 模型 化 方法 等 ， 但 是 这 类 方 
法 不 可 能 是 完全 独立 的 , 它们 不 能 脱离 对 蛋白 质 分 子 的 物理 、 化 学 和 生物 性 质 的 研 
究 . 统计 学 方法 本 身 就 是 不 确定 性 方法 , 目前 还 不 可 能 替代 第 一 类 方法 而 成 为 预测 
蛋白 质 结构 的 最 终 方法 , 而 上 只 能 是 一 种 辅助 方法 . 


1.2 蛋白 质 二 级 结构 和 结构 域 预 测 方法 简介 


蛋白质 结构 预测 已 经 有 了 几 十 年 的 历史 . 通过 对 已 知 空间 结构 蛋白 质 分 子 的 
研究 和 分 析 , 人 们 发 现 , 尽管 一 条 多 肽 链 采 取 构 象 的 数目 是 相当 大 的 , 但 在 蛋白 质 
分 子 中 由 三 级 结构 组 装 而 形成 的 一 定 空间 结构 的 方式 却 是 有 限 的 . 蛋白 质 二 级 结 
构 是 这 种 组 装 的 基本 单位 , 蛋白 质 二 级 结构 预测 和 由 二 级 结构 构成 的 结构 域 预测 就 
成 了 解决 由 蛋白 质 的 一 级 结构 序列 预测 其 空间 结构 这 一 问题 的 关键 步骤 . 

蛋白 质 二 级 结构 的 预测 开始 于 20 世纪 60 年 代 中 期 , 到 目前 为 止 人 们 已 经 提 
出 几 十 种 预测 蛋白 质 二 级 结构 的 方法 . 这 些 方 法 大 体 分 为 三 代 , 第 一 代 是 基于 单个 
氨基 酸 残 基 统 计 分 析 , 从 有 限 的 数据 集中 提取 各 种 残 基 形 成 特定 二 级 结构 的 倾向 ， 
以 此 作为 二 级 结构 预测 的 依据 , 这 种 方法 的 代表 是 Chou-Fasman 方法 . 第 二 代 预 
测 方法 是 基于 氨基 酸 片段 的 统计 分 析 , 使 用 大 量 的 数据 作为 统计 基础 , 统计 的 对 象 
不 再 是 单个 氨基 酸 残 基 , 而 是 氨基 酸 片 段 , 片段 的 长 度 通常 为 11~21 个 氨基 酸 . 片 
段 体现 了 中 心 残 基 所 处 的 环境 . 在 预测 中 心 残 基 的 二 级 结构 时 , 以 残 基 在 特定 环境 
中 形成 特定 二 级 结构 的 倾向 作为 预测 依据 . 这 种 方法 的 代表 是 GOR 方法 . 二 级 结 
构 预测 的 第 三 代 方 法 运用 蛋白 质 序列 的 长 程 信息 和 蛋白 质 序列 的 进化 信息 , 使 二 级 
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结构 预测 的 准确 程度 有 了 比较 大 的 提高 , 特别 是 对 8 折 登 的 预测 准确 率 有 较 大 的 
提高 , 预测 结果 与 实验 观察 趋 于 一 致 . 这 种 方法 的 代表 是 人 工 神 经 网 络 方法 . 

Chou-Fasman 方法 是 一 种 基于 单个 氨基 酸 残 基 统 计 的 经 验 参 数 方法 , 由 Chou 
和 Fasman 在 20 世纪 70 年 代 提 出 . 通过 统计 分 析 , 获得 每 个 残 基 出 现 于 特定 二 级 
结构 构象 的 倾向 性 因子 , 进而 利用 这 些 倾向 性 因子 预测 蛋白 质 的 二 级 结构 . Chou- 
Fasman 方法 构象 参数 的 物理 意义 明确 , 方法 中 二 级 结构 的 成 核 、 延 伸 和 中 止 规则 
可 能 真实 地 反映 了 真实 蛋白 质 中 二 级 结构 形成 的 过 程 , 并 且 可 以 较 简 单 地 用 手工 完 
成 一 个 蛋白 质 分 子 的 二 级 结构 预测 , 预测 准确 率 约 为 50%. 

GOR .方法 是 一 种 基于 信息 论 和 贝 叶 斯 统计 学 的 方法 , 方法 的 名 称 以 三 个 发 明 
人 姓名 的 第 一 个 字母 组 合 而 成 (Garnier, Osguthorpe, Robson). GOR 方法 也 是 建 
立 在 对 已 知 的 氨基 酸 构象 分 析 统 计 基 础 上 的 , 计算 被 预测 结构 的 位 置 特 异 的 概率 . 
GOR 方法 给 出 了 20 种 氨基 酸 残 基 出 现在 不 同位 置 时 的 直接 信息 表 . 假定 相 邻 阶 
段 所 含 的 信息 可 以 近似 表示 为 若干 个 直接 信息 的 简单 加 和 , 根据 这 一 公式 和 相应 的 
直接 信息 表 , 就 可 以 对 一 条 肽 链 中 任 一 位 置 残 基 的 构象 进行 预测 . 这 种 方法 的 预测 
准确 率 约 为 63%. 

人 工 神 经 网 络 是 一 种 复杂 的 信息 处 理 的 机 器 学 习 模 型 . 这 种 模型 最 早 在 20 tH 
纪 80 年 代 末 用 于 蛋白 质 二 级 结构 的 预测 、 蛋 白质 结构 的 分 类 、 折 和 登 方式 的 预测 以 
及 基因 序列 的 分 析 等 . 将 神经 网 络 用 于 二 级 结构 预测 最 早 是 由 Qian 和 Sejnowskit 
提出 的 , 他 们 受到 神经 网 络 在 文字 语言 处 理 方面 应 用 的 启发 , 将 蛋白质 序 列 看 作 是 
由 各 种 氨基 酸 字符 组 成 的 字符 序列 , 将 氨基 酸 残 基 片 段 作 为 输入 的 一 串 语 言 字 符 ， 
二 级 结构 即 为 对 应 的 输出 结果 . 神经 网 络 可 以 有 效 地 学 习 蛋 白质 二 级 结构 形成 的 复 
杂 规 律 或 模式 , 提取 更 多 的 信息 , 并 利用 所 掌握 的 信息 进行 预测 . 利用 神经 网 络 方 
法 可 以 提高 二 级 结构 预测 准确 率 . 神经 网 络 方法 利用 多 序列 比 对 的 信息 , 能 够 得 到 
超过 70%% 的 二 级 结构 预测 准确 率 . 最 近 Petersen 等 以 位 置 特异 性 得 分 矩阵 作为 输 
A, 使 二 级 结构 预测 的 准确 率 达 到 更 高 的 水 平 . 

支持 向 量 机 方法 是 最 近 刚 刚 发 展 起 来 的 蛋白 质 结构 预测 技术 . 2001 年 , 支持 向 
量 机 首次 应 用 于 和 蛋白质 二 级 结构 预测 , 马上 就 显示 出 这 种 方法 的 优势 . 通过 文 持 向 
量 机 方法 得 到 的 蛋白 质 二 级 结构 预测 准确 率 达 到 了 令 人 惊奇 的 73.5%. 之 后 几 年 ， 
科学 家 又 向 前 走 了 一 步 , 预测 准确 率 达 到 了 75.2%. 

蛋白 质 结构 域 要 比 二 级 结构 复杂 , 预测 结构 域 也 比 预测 二 级 结构 的 不 确定 性 大 
些 . 目前 蛋白 质 结 构 域 的 预测 主要 在 于 其 折 登 类 型 的 预测 . 对 于 蛋白 质 折 倒 类 型 没 
有 一 个 统一 的 标准 , 因此 定义 也 较为 混乱 . 总 的 来 说 蛋白 质 的 结构 类 型 可 以 分 为 a 
螺旋 、8 TB. a+ 6 结构 和 aw/6 结构 . 

在 自然 状态 下 , 和 蛋白质 的 折 和 登 类 型 不 超过 1000 种 , 蛋白 质 相互 作用 的 数量 也 
是 有 限 的 . 由 于 不 同 蛋 白质 之 间 的 相互 作用 和 和 蛋白 质 与 相应 配 体 之 间 的 相互 作用 
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都 由 它们 的 三 维 结构 决定 , 所 以 收集 、 探 索 和 挖掘 和 蛋白质 结构 数据 库 中 的 这 类 信息 
对 于 生命 本 质 研 究 至 关 重 要 . 然而 , 对 于 生物 体 基 因 序 列 的 研究 、 这 些 基 因 可 以 表 
达 的 生物 分 子 的 结构 的 研究 以 及 这 些 结构 可 以 表现 出 来 的 功能 的 研究 之 间 存 在 不 
平衡 . 一 方面 , 沉淀 在 序列 数据 库 中 的 数据 越 来 越 多 , 通常 这 些 序 列 是 功能 不 很 清 
楚 的 原始 数据 ; 另 一 方面 , 在 蛋白 质数 据 库 (protein data bank) 中 的 结构 信息 积累 
相对 缓慢 , 计算 方法 就 成 为 预测 蛋白 质 结 构 的 实验 方法 以 外 的 重要 补充 . 

在 蛋白 质 结 构 域 的 折 和 登 类 型 预测 方法 中 , 氨基 酸 组 分 方法 和 双 组 件 效果 的 氨基 
酸 组 分 方法 的 研究 最 充分 . 仅 依赖 序列 中 氨基 酸 成 分 , 即 仅 依赖 氨基 酸 残 基 在 序列 
中 的 百分比 而 不 考虑 其 他 因素 的 影响 , 预测 准确 率 就 可 以 达到 80%. 在 这 种 方法 上 
发 展 起 来 了 双 组 件 效 果 的 氨基 酸 组 分 方法 和 双 组 件 算 法 . 近 十 年 来 , 使 用 双 组 件 算 
法 用 于 预测 蛋白 质 结构 类 可 以 达到 很 高 的 准确 率 . 

然而 这 个 准确 率 仍 然 不 能 满足 人 们 的 需要 , 相对 于 X 射线 衍射 方法 和 核磁 共 
振 方 法 得 到 的 准确 率 仍 然 有 一 定 的 差距 . 蛋白 质 二 级 结构 预测 识别 率 不 高 的 原因 
BR. 全 面 提 高 蛋白 质 二 级 结构 预测 的 准确 率 是 一 个 系统 涉及 多 领域 、 多 学 科 的 系 
统 工程 . 


第 2 章 ”相关 知识 背景 
2.1“ 生 物 信 息 学 


2.1.1 生物 信息 学 的 定义 、 目 的 、 内 容 和 发 展 趋势 


生物 信息 学 是 一 门 边缘 学 科 , 它 的 知识 体系 中 包含 了 生物 学 (生物 化 学 、 遗 伟 
学 、 结 构 生 物 学 等 )、 计 算 机 科学 (计算 理论 、 人 工 智 能 、 机 器 学 习 以 及 动态 规划 
等 )、 物理 化 学 (热力 学 、 分 子 建 模 等 ) 及 数学 (算法 、 建 模 技术 、 概 率 论 与 数理 统计 
等 ) 等 方面 的 知识 . 自从 生物 信息 学 这 个 研究 领域 被 开辟 以 来 , 它 就 以 极 快 的 速度 
发 展 并 快速 延伸 其 学 科 范 围 , 并 逐渐 建立 了 与 多 个 学 科 之 间 的 联系 , 因此 很 难 明确 
地 界定 生物 信息 学 中 各 个 学 科 之 间 的 界限 . 生物 信息 学 主要 的 研究 领域 涉及 基因 组 
学 、 和 蛋白 质 组 学 、 生 物化 学 、 数 据 挖掘 、 分 子 进化 、 分 子 建 模 以 及 算法 等 口 . 

简单 、 直 观 地 从 字面 意思 上 来 看 , 生物 信息 学 由 “生物 ”和 “信息 ”两 部 分 组 
成 . “生物 ”部 分 一 般 指 的 是 分 子 生 物 学 , 包括 进化 论 和 遗传 学 ;“ 信 息 ” 部 分 指 的 
是 计算 机 科学 . 这 样 把 这 两 部 分 链接 在 一 起 指 的 就 是 用 计算 机 科学 的 方法 解决 分 子 
生物 学 的 问题 71. Luscombe 在 2001 年 给 出 一 个 明确 的 定义 :“ 生 物 信息 学 是 根据 
RF (从 物理 化 学 的 角度 ) 和 信息 技术 ( 源 自 应 用 数学 、 计 算 机 科学 和 统计 学 的 原 
则 ) 的 应 用 来 理解 和 组 织 与 这 些 分子 相 关 的 大 规模 的 信息 , 即 生物 信息 学 是 分 子 生 
物 学 的 信息 管理 系统 和 诸多 实践 上 的 应 用 ”四 . 生物 信息 学 可 以 简明 扼要 地 定义 为 
利用 计算 机 方法 理解 、 组 织 和 解析 分 子 生物 学 研究 中 的 信息 . 其 实 “ 生 物 ” 和 “ 信 
姑 ” 两 种 学 科 之 间 绪 合 的 本 质 原因 是 有 机 体 的 生理 学 和 行为 大 体 上 由 它 的 基因 时 
癌 , 有 机 体 本 身 的 生长 和 发 育 受 各 种 信息 的 指挥 和 调节 , 而 生物 学 本 身 就 可 以 认为 
是 一 种 信息 技术 FI. 

生物 信息 学 的 研究 是 由 大 量 数 据 驱 动 的 , 各 种 各 样 的 数据 处 理 方法 和 工具 被 应 
用 于 分 子 生物 学 的 研究 中 . 数据 处 理 方法 和 工具 的 革新 会 推动 生物 信息 学 的 发 展 ， 
计算 技术 和 实验 技术 的 革新 使 得 数据 快速 沉淀 到 公共 数据 库 中 , 高 容量 的 存储 器 和 
高 技术 处 理 器 的 高 速 处 理 能 力 提 高 了 传统 实验 室 数据 处 理 效能 . 在 生物 信息 学 领域 
男 一 个 起 到 决定 作用 的 是 互联 网 的 产生 和 快速 发 展 , 通过 互联 网 人 们 可 以 很 容易 地 
访问 和 交流 海量 的 生物 信息 数据 . 这 些 是 生物 数据 急剧 增长 的 主要 原因 . 由 于 生物 
信息 学 数据 库 中 的 数据 急剧 增加 , 很 多 生物 学 问题 实际 成 了 计算 问题 . 计算 机 是 一 
种 理想 的 工具 , 它 不 但 可 以 大 量 处 理 数据 , 而 且 利用 恰当 的 软件 包 还 能 寻找 这 些 数 
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据 的 复杂 的 动力 学 规律 加 

生物 信息 学 技术 的 发 展 使 生物 分 析 向 两 个 方向 发 展 : 深度 和 宽度 . 深度 方面 
主要 目标 在 于 药物 理性 设计 . 它 的 目标 是 取得 单独 的 蛋白 质 并 对 其 进行 彻底 地 分 析 
以 透彻 地 理解 这 个 蛋白 质 在 生物 体 中 的 功能 . 为 了 高 效 地 实现 这 一 目标 , 人 们 设计 
了 一 整套 方法 . 首先 对 基因 组 进行 测序 , 并 从 中 找到 可 读 框 . 然后 运用 恰当 的 方法 、 
依据 可 读 框 翻译 的 蛋白 质 一 级 序列 预测 该 蛋白 质 的 高 级 结构 .利用 几何 计算 可 以 
确定 蛋白 质 表 面 的 形状 , 模拟 计算 可 以 确定 周围 受 力 区 域 . 最 后 使 用 分 子 对 接 算法 
鉴别 和 设计 可 能 与 蛋白 质 结合 的 配 体 , 为 药物 设计 铺 平 了 道路 . 然而 这 一 整套 方法 
中 所 应 用 的 技术 有 些 目前 还 不 成 熟 , 其 中 有 些 技术 还 处 于 探索 阶段 , 利用 这 些 技术 
一 般 难以 得 到 精确 的 预测 结果 . 因此 虽然 使 用 计算 工具 理解 生物 分 子 的 结构 和 功能 
比 实验 更 加 方便 , 但 是 确定 分 子 结构 和 功能 的 最 可 靠 途径 还 是 通过 直接 的 实验 . 从 
广度 方面 来 分 析 , 首先 是 把 基因 同 其 他 的 基因 进行 比较 , 以 确定 基因 在 生物 进化 中 
的 位 置 和 在 有 机 体 中 可 能 发 挥 的 功能 . 其 次 , 对 于 蛋白 质 结构 进行 预测 、 研 究 蛋 白 
质 结构 与 功能 的 关系 也 是 生物 信息 学 发 展 的 重要 方向 . 

生物 信息 学 的 目的 主要 在 于 三 个 方面 四 : 

(1) 组 织 信息 . 生物 信息 学 组 织 数据 的 目标 之 一 是 使 得 查询 者 可 以 得 到 存在 的 
信息 并 提交 他 们 获得 的 新 数据 . 数据 储存 仅 是 生物 信息 学 的 一 项 基本 任务 , 这 些 存 
储 的 数据 在 分 析 之 前 还 不 能 发 挥 作用 . 

(2) 数据 分 析 . 寻找 新 的 工具 和 信息 源 来 分 析 数据 . 例如 , 把 一 个 蛋白 质 序列 与 
已 知 的 特征 序列 比较 , 这 就 不 仅仅 需要 直接 的 数据 查询 . 生物 信息 学 的 分 析 工 具 还 
必须 能 分 析 有 机 体 的 基因 组 和 蛋白 质 组 之 间 有 意义 的 共同 之 处 , 做 到 这 一 点 就 需要 
广泛 地 汇聚 计算 理论 方面 的 知识 以 及 分 析 者 对 生物 的 生理 生化 规律 的 透彻 理解 

(3) 信息 释义 . 使 用 合适 的 工具 分 析 并 且 解 释 所 得 数据 的 生物 学 含义 从 而 发 
现 新 的 知识 . 传统 上 , 生物 学 详细 考察 单个 系统 , 并 且 比较 与 之 相关 的 少数 几 个 系 
统 . 然而 对 有 机 体 的 生物 信息 学 分 析 则 必须 从 当前 可 以 得 到 的 数据 中 对 该 有 机 体 以 
及 与 其 相关 的 生物 系统 进行 全 面 的 比较 , 以 便 揭示 涉及 多 个 系统 的 一 般 规律 和 这 些 
系统 的 重要 特征 . 

从 目前 生物 信息 学 的 研究 情况 来 看 ,国际 上 公认 的 生物 信息 学 的 研究 内 容 , 大 
致 包 括 以 下 几 个 方面 回 : 

(1) 生物 信息 的 收集 、 存 储 、 管 理 与 提供 . 包括 建立 国际 基本 生物 信息 库 和 生 
物 信息 传输 的 国际 互联 网 系统 、 建 立 生物 信息 数据 质量 的 评估 与 检测 系统 、 生 物 信 
息 的 在 线 服 务 以 及 生物 信息 可 视 化 和 专家 系统 . 

(2) 基因 组 序列 信息 的 提取 和 分 析 . 包括 基因 的 发 现 与 鉴定 , 基因 组 中 非 编 码 
区 的 信息 结构 分 析 , 提出 理论 模型 ,阐明 该 区 域 的 重要 生物 学 功能 . 进行 模式 生物 
完整 基因 组 的 信息 结构 分 析 和 比较 研究 . 利用 生物 信息 研究 遗传 密码 起 源 、 基 因 组 
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结构 的 演化 、 基 因 组 空间 结构 与 DNA Fr KAW REA fa SEERA 
等 生物 学 的 重大 问题 . 

(3) 功能 基因 组 相关 信息 分 析 . 包括 与 大 规模 基因 表达 谱 分 析 相 关 的 算法 、 软 
件 研究 , 基因 表达 调控 网 络 的 研究 . 与 基因 组 信息 相关 的 核酸 、 和 蛋白 质 空间 结构 的 
预测 和 模拟 以 及 和 蛋白质 功 能 预测 的 研究 . 

(4) 生物 大 分 子 结构 模拟 和 药物 设计 . 包括 RNA( 核 糖 核酸 ) 的 结构 模拟 和 反 义 
RNA 的 分 子 设计 , 蛋白 质 空间 结构 模拟 和 分 子 设计 , 具有 不 同 功能 域 的 复合 蛋白 质 
以 及 连接 肽 的 设计 , 生物 活性 分 子 的 电子 结构 计算 和 设计 , 纳米 生物 材料 的 模拟 与 
设计 , 基于 酶 和 功能 蛋白 质 结 构 、 细 胞 表面 受 体 结 构 的 药物 设计 , 基于 DNA 结构 
的 药物 设计 等 . 

(5) 生物 信息 分 析 的 技术 与 方法 研究 . 包括 发 展 能 支持 大 尺度 作 图 与 测序 需要 
的 软件 、 数 据 库 以 及 若干 数据 库 工 具 , 如 电子 网 络 等 远程 通信 工具 . 改进 现 有 的 理 
论 分 析 方 法 , 如 统计 方法 、 模 式 识别 方法 、 隐 马尔 可 夫 过 程 方法 、 分 维 方法 、 神 经 
网 络 方法 、 复 杂 性 分 析 方法 、 密 码 学 方法 、 多 序列 比较 方法 、 统 计 学 习 理 论 方法 等 . 
创建 一 切 适 用 于 基因 组 信息 分 析 的 新 方法 、 新 技术 , 包括 引入 复杂 系统 分 析 技 术 、 
信息 系统 分 析 技 术 等 . 建立 严格 的 多 序列 比较 方法 . 发 展 与 应 用 密码 学 方法 以 及 其 
他 算法 和 分 析 技 术 , 用 于 解释 基因 组 的 信息 , 探索 DNA 序列 及 其 空间 结构 信息 的 
新 表征 , 发 展 研究 基因 组 完整 信息 结构 和 信息 网 络 的 研究 方法 等 , 发 展 生 物 大 分 子 
空间 结构 模拟 、 电 子 结构 模拟 和 药物 设计 的 新 方法 与 新 技术 . 

(6) 应 用 与 发 展 研究 . 汇集 与 疾病 相关 的 人 类 基因 信息 , 发 展 患者 样品 序列 信 
息 检 测 技术 和 基于 序列 信息 选择 表达 载体 、 引 物 的 技术 , 建立 与 动 植物 良种 繁育 相 
关 的 数据 库 以 及 与 大 分 子 设 计 和 药物 设计 相关 的 数据 库 . 

生物 信息 学 发 展 的 未 来 趋势 主要 在 以 下 几 个 方面 四: @ 计算 基因 组 学 , 包括 
高 通 量 基因 组 测序 、 模 型 化 和 注释 ; @) 计算 结构 生物 学 , 包括 模型 比较 和 蛋白质 
折 登 解析 ; @ 计算 大 分 子 化 学 , 包括 解析 低 分 辩 率 的 折 登 拓扑 和 高 分 辩 率 的 结构 ; 
图 分 子 识别 的 计算 分 析 , 包括 分 子 对 接 和 分 子 结构 仿真 ; © 计算 细胞 生物 学 中. 
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从 生物 信息 学 的 数据 处 理 的 性 质 来 看 , 生物 信息 学 包括 基因 组 学 和 蛋白 质 组 学 
两 个 方面 图 . 20 世纪 90 年 代 初 , 人 类 基因 组 组 织 很 多 国家 的 科学 家 和 分 子 生物 学 
研究 机 构 着 手 展 开 人 类 基因 组 计划 名, 这 个 计划 开启 了 基因 组 时 代 的 上 曙光， 人 类 
基因 组 计划 的 目的 是 要 测 出 人 类 每 一 条 染色 体 的 完整 DNA 序列 , 它 的 主要 研究 工 
作 集 中 于 大 规模 的 基因 组 测序 . 第 一 个 微生物 瓦 influenza 的 完整 基因 组 测序 工作 
完成 于 1995 年 . 第 二 年 , 测序 工作 进程 有 所 加 快 , 三 个 基因 组 3S. cerevisiae '1, M. 
jannaschii 9) AlM.genitalium "4 的 测序 工作 相继 完成 . 测序 技术 的 完善 和 互联 网 
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技术 的 发 展 是 基因 组 测序 的 进程 加 快 的 主要 原因 . 人 类 基因 组 草图 于 2000 年 中 期 
完成 , 于 2001 年 公开 发 表 1. 在 这 个 草图 中 包含 了 绝 大 部 分 的 功能 基因 组 和 未 表 
达 的 蛋白 质 组 信息 . 虽然 它 仅仅 是 草图 , 仍然 可 以 从 中 发 现 很 多 有 用 的 信息 . 

人 类 基因 组 中 大 约 包 含 30 亿 个 碱 基 对 ,人 们 预测 包含 3 万 ~4 万 个 蛋白 质 编 
码 基因 , 其 中 包含 和 关于 人 类 的 发 展 、 生 理 、 医 药 和 进化 方面 的 重要 、 有 用 的 信息 . 
因此 人 们 需要 有 效 的 工具 从 这 些 数据 中 发 现 信息 并 快速 处 理 积累 的 信息 Ba. 目 
前 已 经 测序 的 DNA 序列 数据 都 在 互联 网 上 公布 , 任何 人 都 可 以 免费 下 载 这 些 实验 
数据 . 


2.1.3 ”蛋白 质 组 学 


蛋白 质 组 指 的 是 对 有 机 体 的 整个 生命 过 程 起 作用 的 一 切 蛋 白质 的 总 称 .， 随 着 
人 类 基因 组 草图 的 绘制 完成 , 生物 信息 学 的 研究 进入 后 基因 组 时 代 , 并 打开 了 蛋白 
质 组 学 研究 的 序幕 . 人 类 基因 组 计划 完成 后 , 基因 的 功能 和 作用 并 未 痔 明 , 而 绘制 
决定 生命 体 多 样 性 、 复 杂 性 及 其 功能 的 蛋白 质 组 图 谱 , 将 使 人 类 基因 组 中 绝 大 部 分 
基因 的 功能 得 到 揭示 和 痔 述 . 人 类 和 蛋白质 组 研究 对 揭示 生命 活动 规律 和 本 质 、 探 索 
人 类 重大 疾病 发 生 、 发 展 机 制 具 有 深远 的 意义 , 由 此 必 将 广泛 推动 生命 科学 、 生 物 
技术 以 及 人 信息、 分析、 材料 等 科技 领域 的 发 展 . 

蛋白 质 组 是 生命 活动 的 执行 体 , 是 基础 研究 与 应 用 研究 、 生 命 科 学 与 医药 产业 
及 生物 经 济 的 纽带 和 桥梁 , 是 极为 重要 而 又 有 限 的 生物 战略 资源 . 蛋白 质 组 研究 不 
仅 可 以 实现 与 基因 组 的 对 接 与 确认 、 直 接 揭示 生命 活动 的 规律 和 本 质 特点 以 及 人 
类 重大 疾患 发 生 与 发 展 的 病理 机 制 , 而 且 可 广泛 推动 和 促进 生命 科学 基础 学 科 以 及 
分 析 科学 、 信 息 科学 、 材 料 科学 等 应 用 学 科 的 发 展 . 随 着 人 类 基因 组 计划 的 完成 , 蛋 
白质 组 的 研究 已 经 成 为 21 世纪 生命 科学 发 展 的 先导 , 成 为 生命 科学 帮 至 自然 科学 
最 活跃 的 学 科 领 域 . 

2003 年 底 , 国际 人 类 蛋白质 组 计划 正式 启动 ,“ 人 类 肝脏 蛋白 质 组 计划 ”和 “人 
类 血浆 蛋白 质 组 计划 ”、“ 人 类 脑 蛋白 质 组 计划 ”、“ 大 规模 抗体 计划 ”和 “蛋白质 组 
标准 计划 ”五 大 项 目 首先 开始 执行 . 其 中 “人 类 肝脏 蛋白 质 组 计划 ”由 中 国 科学 家 
领导 执行 5. 2004 年 10 月 25 A, 以 “蛋白 质 组 学 — 基因 组 的 诠释 ”为 主题 的 
第 三 届 国 际 人 类 和 蛋白 质 组 大 会 在 北京 隆重 开幕 ，2000 余 位 科学 家 齐 聚 一 堂 共同 探 
讨 人 类 蛋白质 组 研究 . 会 上 , 安捷伦 科技 蛋白 质 组 市 场 开发 经 理 Rudy Grimm 博士 
说 :“ 人 类 基因 工程 成 功 的 关键 在 于 发 展 自动 化 程度 高 、 易 于 操作 , 且 能 够 快速 、 大 
批量 进行 基因 排序 的 科学 技术 . 然而 , 目前 蛋白 质 组 学 研究 的 开展 远 没有 达到 大 批 
量 和 大 产 出 的 程度 , 同时 还 面临 着 自动 化 程度 较 低 , 缺乏 高 水 平 专业 技术 人 员 的 局 
oe >[15] 

和 蛋白质 组 学 的 研究 比 基 因 组 学 的 研究 更 加 困难 . 基因 的 功能 由 碱 基 序列 完全 确 
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定 , 而 蛋白 质 的 功能 则 是 通过 一 级 序列 确定 的 、 不 同 空间 结构 来 实现 的 . 结构 完全 

不 同 的 蛋白 质 可 能 具有 类 似 的 氨基 酸 序列 ， 同 时 结构 相同 的 蛋白 质 其 序列 差别 可 
能 很 大 09. 生物 体 通常 通过 复制 具有 某 种 基因 的 多 拷贝 , 并 且 不 同 种 类 的 生物 当 
它们 在 进化 过 程 中 分 化 时 通过 遗传 使 它们 具有 等 价 的 或 相似 的 蛋白 质 . 在 结构 水 
平 上 ,Chothia 预测 蛋白 质 三 维 结构 的 数量 是 有 限 的 , 这 个 数目 在 1000~10 000071. 
虽然 PDB 数据 库 中 的 蛋白 质 结 构 呈 指数 增长 , 但 是 发 现 新 折 登 类 型 的 速率 却 在 下 
降 ag. 因为 蛋白 质 的 折 难 种 类 大 大 小 于 基因 的 种 类 , 蛋白 质 折 登 的 分 类 对 于 基因 
组 的 内 容 提供 了 一 个 坚实 的 简化 19:29, 这 个 基本 的 发 现 就 是 人 们 通过 计算 机 从 和 蛋 
白质 一 级 序列 预测 蛋白 质 高 级 结构 的 依据 .管理 这 一 层面 的 信息 在 于 发 展 评估 不 
同 生物 分 子 相 似 性 的 方法 以 及 鉴别 它们 的 相似 性 U8), 


2.1.4 ”数据库 


Kanehisa 认为 “发 现 受 数据 驱动 ” 是 后 基因 组 时 代 的 特征 2. 因此 发 现 、 递 
交 、 整 理 和 分 析 数 据 是 生物 信息 学 的 重要 任务 . 人 们 已 经 建立 了 数目 庞大 、 种 类 众 
多 的 各 种 生物 信息 数据 库 . 这 些 数据 库 主要 包括 了 基因 序列 数据 库 和 和 蛋白 质 序 列 
数据 库 , 另外 还 有 一 些 数据 库 既 收集 基因 序列 也 收集 蛋白 质 序 列 . 近 些 年 来 , 人 们 
投入 了 很 大 的 人 力 、 物 力 对 生物 信息 数据 进行 收集 和 整理 ,因为 大 量 数据 的 存 入 ， 
使 得 当前 的 生物 信息 数据 以 指数 速率 膨胀 . 图 2-1 和 图 2-2 直观 描述 了 PDB 数据 
‘FEA GenBank 数据 库 的 增长 情况 . 从 两 个 图 中 可 以 看 出 两 个 数据 库 中 的 数据 量 都 
显示 了 呈 指 数 增长 的 趋势 . 造成 这 种 现象 的 原因 在 于 更 新 、 效 率 更 高 的 分 析 基 因 组 
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2-1 protein data bank 中 的 数据 每 年 呈 指 数 增 长 示意 图 
(图 中 数据 来 自 http://www.rcsb.org/pdb/holdings.html) 
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和 和 蛋白质 组 的 技术 的 使 用 . 根据 目前 数据 量 的 增长 趋势 , 公共 数据 库 中 的 DNA 和 
蛋白 质 序列 数据 15 个 月 就 会 翻 倍 2 处理 和 分 析 储 存在 数据 库 中 的 信息 已 经 成 
为 生物 信息 工作 者 的 主要 任务 . 


GenBank 数 据 
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序列 数 (x109) 
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图 2-2 GenBank Data 中 的 数据 每 年 呈 指 数 增长 示意 图 
( 源 自 http://www3.ncbi.nlm.nih.gov/Genbank/genbankstats.htm]) 


蛋白 质数 据 库 可 以 分 为 一 级 数据 库 、 复 合 数据 库 和 二 级 数据 库 . 一 级 数据 
库 作 为 原始 数据 的 仓库 包含 了 约 30 万 个 蛋白 质 序列 和 功能 ©). 例如 ， SWISS- 
PROT!?3], PIR-international?4) 和 和 蛋白 质数 据 库 protein data bank(PDB)!?®6l, 这 
些 数 据 库 提 供 了 已 经 解析 的 所 有 类 型 大 分 子 的 三 维 结构 , 包括 蛋白 质 、RNAS DNA 
和 各 种 复合 体 . 其 中 太 多 数 的 结构 是 运用 X 射线 衍射 和 核磁 共振 技术 得 到 的 , 也 
有 一 些 是 理论 模型 . 因为 PDB 中 的 条 目 信息 很 难 摘录 , 所 以 PDBsump27] 为 每 个 
结构 提供 了 一 个 网 页 来 展示 该 结构 的 结构 分 析 、 示 意图 和 不 同 分 子 之 间 的 相互 作 
用 数据 ,这些 数 据 库 同时 还 对 数据 库 中 的 序列 进行 注释 、 描 述 蛋 白质 的 功能 、 结 
构 域 以 及 进行 后 翻译 修正 .复合 数据 库 , 如 OWLP8 Al NRDBP9, 这 些 数据 库 通 
过 从 不 同一 级 数据 库 中 编辑 和 过 滤 序 列 数据 来 产生 组 合 的 非 元 余 集合 . 这 种 数据 库 
比 保 存单 一 种 类 分 子 的 数据 库 更 完善 、 更 丰富 , 其 中 还 包含 了 从 DNA 序列 数据 库 
的 密码 子 区 翻译 得 到 的 蛋白 质 序 列 .二 级 数据 库 包含 了 从 蛋白 质 序列 中 获得 的 知 
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识 , 并 帮助 使 用 者 确定 是 否 一 个 新 的 序列 属于 已 知 的 家 族 . 最 著名 的 二 级 数据 库 为 
PROSITE[a0. 下 面 三 个 主要 的 蛋白 质 结构 数据 库 CATHE4 . SCOPES?) 和 FSSP 数 
据 库 [83 对 于 PDB 数据 库 提 供 的 结构 对 蛋白 质 进 行 了 分 类 , 以 便 提供 结构 和 进化 
关系 方面 的 信息 . 这 三 个 数据 库 都 包含 了 等 级 结构 分 类 , 其 中 每 种 蛋白 质 在 分 类 树 
的 等 级 越 低 它 们 的 相似 性 就 越 接近 . 生物 信息 学 研究 人 员 的 下 一 个 挑战 是 从 这 些 数 
据 库 中 学 习 、 发 现 和 预测 有 用 的 信息 . 


2.2 和 蛋白质 序列 、 结 构 与 功能 的 关系 


生物 信息 学 在 后 基因 组 时 代 的 最 终 目 的 是 确定 每 条 新 发 现 序 列 的 生物 学 功能 
及 其 在 生物 体 中 的 角色 84). 解析 有 机 体 中 蛋白 质 的 结构 和 分 析 其 功能 是 蛋白 质 组 
时 期 生物 信息 学 工作 者 的 主要 任务 . 随 着 人 类 和 其 他 动物 基因 组 测序 工作 的 完成 ， 
生物 学 研究 面临 的 最 重要 的 挑战 之 一 , 就 是 如 何 依据 基因 序列 预测 它 押 翻译 的 蛋白 
质 的 高 级 结构 、 进 而 预测 该 蛋白 质 的 功能 . 如 果 能 够 做 到 这 一 点 , 将 在 所 有 生物 技 
术 与 药物 设计 领域 产生 决定 性 的 影响 . 蛋白 质 是 生物 体 中 含量 最 高 、 功 能 最 重要 的 
生物 大 分 子 , 蛋白 质 存 在 于 所 有 生物 细胞 中 , 约 占 细 胞 干 质量 的 50 儿 以 上 . 作为 生 
命 的 物质 基础 之 一 , 蛋白 质 在 催化 有 机 体内 各 种 反应 进行 、 调 节 人 代谢、 抵御 外 来 物 
质 入 侵 及 控制 遗传 信息 等 方面 都 起 着 至 关 重 要 的 作用 . 有机体 中 几乎 所 有 的 生命 
活动 都 是 靠 蛋白 质 完成 的 , 蛋白 质 的 功能 与 它 的 结构 密切 相关 . 

构成 天 然 蛋白 质 的 氨基 酸 残 基 共 有 20 种 , 蛋白 质 是 由 氨基 酸 脱水 缩合 形成 的 
多 肽 链 折 登 成 的 紧凑 三 维 结构 . DNA 中 的 基因 控制 合成 蛋白 质 , 碱 基 序列 决定 了 
蛋白 质 的 氨基 酸 种 类 及 其 排列 顺序 . 蛋白 质 的 结构 可 以 分 为 6 个 级 别 : 一 级 结构 、 
二 级 结构 、 超 二 级 结构 、 三 级 结构 、 四 级 结构 以 及 分 子 缔 合 体 . 氨基酸 残 基 的 线性 
Fale SAR RAW. BARN RAW AEA RAS PS KEN UAE 
布 , ELAR. HEN TCMSASHMCK. 超 二 级 结构 为 二 级 结构 单元 间 
的 组 合 方式 . 三 级 结构 指 的 是 蛋白 质 的 三 维 空间 结构 , 四 级 结构 是 蛋白 质 亚 基 之 间 
的 相互 作用 9). 许多 有 用 的 蛋白 质 结构 信息 可 以 从 蛋白 质 的 结构 单位 中 获得 , 比 
如 蛋白 质 的 功能 和 活性 位 点 、 交 互 作 用 机 制 和 进化 理论 等 . 

通过 对 于 完全 变性 的 核糖 核酸 酶 的 复 性 研究 , 建立 了 关于 蛋白 质 序 列 与 结构 
关系 的 一 般 性 结论 ,: 称 作 热 力学 假说 9， 热力 学 假说 认为 “一 个 蛋白 质 在 正常 
的 生理 环境 (溶液 、pH、 离 子 强度 、 其 他 离子 或 非 及 基 团 有 无 以 及 温度 等 ) PA 
有 的 三 维 结构 是 这 样 一 种 结构 , 整个 系统 中 的 Gibbs( 吉 布 斯 : 吸收 单位 ,1Gibbs= 
10~*° mol/em 的 表面 浓度 ) 自由 能 最 小 , 即 固有 构象 完全 由 分 子 间 相互 作用 决定 . 
也 就 是 说 , 在 一 定 的 环境 中 由 氢 基 酸 序列 完全 决定 ”. 从 自然 选择 方面 来 说 , 在 进化 
过 程 中 恒 白 质 分 子 只 有 存在 于 与 选择 它 的 环境 相似 的 环境 中 时 才 可 能 出 现 稳定 的 
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结构 , 这 种 状态 称 作 生理 状态 . 生物 功能 与 蛋白 质 分 子 的 几何 形状 的 关系 比 与 氨基 
酸 成 分 之 间 的 关系 更 密切 些 (971, 

蛋白 质 结 构 预测 是 蛋白 质 结构 与 功能 研究 工作 的 重要 组 成 部 分 Bal. 蛋白 质 在 
生物 体 中 的 角色 决定 于 它 的 功能 , 而 蛋白 质 的 功能 大 体 由 它们 的 结构 决定 . 因此 了 
解 蛋白 质 的 三 维 结构 对 人 们 了 解 其 功能 提供 了 很 大 帮助 . 虽然 通过 实验 解析 蛋白 
质 结 构 的 速度 越 来 越 快 , 但 是 , 由 于 生物 种 类 繁多 , 每 种 生物 的 蛋白 质 组 又 不 完全 
相同 , 所 以 所 有 的 蛋白 质 结构 都 通过 实验 来 进行 解析 是 不 可 能 的 . 当 越 来 越 多 的 蛋 
白质 结构 被 人 们 了 解 以 后 ,人们 就 可 以 从 中 找到 蛋白 质 结构 由 一 级 结构 折 礁 成 高 
级 结构 的 规律 , 这 时 人 们 就 可 以 借助 计算 机 来 预测 蛋白 质 的 结构 . 通过 几 十 年 的 努 
力 , 人 们 预测 蛋白 质 结构 的 技术 取得 了 巨大 的 进步 . 蛋白 质 结构 预测 方法 大 体 分 为 
=F: © 同 源 建 模 ; @ 穿针引线 方法 或 折叠 识 别 ; @) 从 头 预测 .一般 来 说 预测 的 
类 别 反映 了 可 以 从 数据 库 中 得 到 哪 类 信息 . 

人 们 之 所 以 热衷 于 研究 蛋白 质 序列 与 结构 之 间 的 关系 , 是 与 蛋白 质 的 功能 由 蛋 
白质 的 结构 所 确定 的 这 一 论断 分 不 开 的 (99), 通过 蛋白 质 的 结构 可 以 识别 暴露 在 蛋 
白质 表面 的 并 能 溶解 到 溶剂 中 的 氨基 酸 残 基 和 深 埋 在 蛋白 质 结构 内 部 的 氨基 酸 残 
基 、 蛋 白质 分 子 的 表面 形状 和 分 子 组 成 成 分 以 及 每 个 基 团 的 毗邻 关系 . 同时 也 可 以 
揭示 蛋白 质 晶体 所 处 的 生理 环境 或 者 高 浓度 溶解 下 的 四 级 结构 蛋白质 与 配 体 的 
结合 方式 也 是 人 们 想 要 了 解 的 最 有 用 的 功能 信息 , 因为 这 些 信息 揭示 了 配 体 与 蛋白 
质 结合 的 本 质 . 如 果 蛋 白质 是 酶 , 人 们 还 可 以 通过 活性 位 点 的 氨基 酸 排列 来 推测 其 
催化 机 制 . 根据 传统 的 方法 , 这 种 复合 体 可 以 通过 设计 配 体 来 确定 , 如 在 结晶 化 方 
法 中 加 适当 的 配 体 . 而 当 配 体 未 知 时 , 人 们 也 可 以 通过 结构 基因 组 学 方法 来 确定 配 
体 . 这 种 确定 配 体 的 方法 对 于 了 解 蛋白 质 的 功能 来 说 很 重要 . 蛋白 质 结构 数据 通常 
仅 携带 其 生化 功能 信息 , 它们 在 细胞 或 有 机 体 中 的 生物 学 角色 更 加 复杂 , 需要 额外 
的 实验 信息 来 阐明 它 .然而 , 在 确定 生物 功能 的 研究 过 程 中 , 有 些 蛋白 质 生化 功能 
的 信息 会 指导 选择 恰当 的 实验 来 对 其 基于 结构 的 功能 进行 预测 ， 

蛋白 质 的 功能 可 以 在 从 生物 化 学 通过 细胞 到 生理 功能 的 不 同 层次 来 定义 . 蛋白 
质 分 子 固有 的 结构 对 于 其 功能 是 绝对 必要 的 , 功能 相同 的 蛋白 质 有 类 似 的 结构 . 从 
结构 预测 功能 非常 困难 , 即便 两 个 蛋白 质 结构 被 发 现 具 有 同 源 性 , 结构 与 功能 相似 
性 的 关系 也 不 是 一 目 了 然 的 , 并 且 很 可 能 会 被 其 他 很 多 因素 影响 tl， 由 于 蛋白 质 
的 结构 极为 复杂 、 蛋 白质 的 生物 体 中 的 功能 以 及 发 挥 功能 的 条 件 也 极为 复杂 , 所 以 
虽然 经 过 了 40 年 的 研究 , 蛋白 质 结构 预测 问题 以 及 结构 和 功能 关系 问题 仍 是 分 子 
生物 学 领域 的 热点 问题 

蛋白 质 在 几乎 所 有 的 生命 过 程 中 都 起 着 至 关 重 要 的 作用 .它们 所 负担 的 生理 
功能 包括 四 ~4]， 

(1) 酶 促 催化 反应 . 几乎 所 有 的 生物 反应 都 是 酶 促 催化 反应 . 由 于 酶 的 参与 使 
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生物 体内 的 生物 化 学 反应 速度 加 快 了 105 倍 . 

(2) 运输 与 储存 . 在 生理 环境 中 , Doi ae Aa. 例如 , 很 多 药物 分 
子 都 是 与 血浆 中 的 血浆 血清 蛋白 结合 . 

(3) 调整 运动 . 肌肉 几乎 都 是 蛋白 质 , 肌肉 的 收缩 由 两 种 蛋白 质 ( 肌 动 蛋白 和 肌 
浆 球 和 蛋白) 之 间 的 滑动 来 调节 . 

(4) 机 械 支 撑 . 皮肤 和 骨骼 都 由 胶原 质 强化 . 

(5) 免疫 保护 . 抗体 是 特异 地 反抗 机 体 中 外 来 物质 的 重 白 质 结构 . 

(6) 神经 冲动 的 产生 和 传导 . 某 些 氨基 酸 是 神经 传递 素 , 它 可 以 把 点 信号 从 一 
个 细胞 传导 到 另 一 个 细胞 . 

(7) 生长 和 分 化 的 控制 . 蛋白 质 可 以 调节 生长 控制 、 细 胞 分 化 和 DNA 的 表达 . 
蛋白 质 阻 抑 物 可 以 与 特异 的 DNA 片段 结合 , 保护 表达 从 而 使 DNA 片段 产生 一 定 
的 产物 . 另外 , 很 多 控制 细胞 功能 的 激素 和 生长 因子 都 是 蛋白 质 , 如 胰岛 素 和 甲状 
腺 素 . 

人 们 对 于 蛋白 质 空 间 结构 与 功能 的 关系 问题 已 经 探索 了 很 长 的 时 间 . 到 目前 
为 止 , 这 个 问题 仍然 是 生物 学 领域 中 的 热点 问题 . 每 一 种 重 白质 都 有 着 特有 的 生物 
学 功能 , 这 是 由 它们 特定 的 空间 构象 决定 的 . 因为 它们 的 特定 的 结构 允许 它们 结合 
特定 的 配 体 分 子 , 蛋白 质 多 种 多 样 的 功能 与 各 种 蛋白 质 特定 的 空间 构象 密切 相关 . 
其 构象 发 生 改变 , 功能 活性 也 随 之 改变 . 

根据 系统 科学 的 观点 , 任何 执行 特定 功能 的 系统 都 具有 内 部 有 序 的 结构 . 系统 
的 总 体 结 构 和 功能 决定 于 系统 各 个 部 分 的 结构 以 及 这 些 子 结构 的 排列 顺序 . 系统 的 
结构 决定 了 系统 的 功能 . ABT, 人们 已 经 了 解 了 一 些 蛋 白质 结构 和 功能 的 具体 的 、 
零散 的 联系 , 从 这 些 具 体 的 联系 中 人 们 可 以 看 出 蛋白 质 的 空间 结构 和 它们 的 功能 密 
不 可 分 : 不 同 的 空间 结构 对 应 不 同 的 功能 , 反之 功能 不 同 的 蛋白 质 其 结构 一 定 不 同 . 
然而 , 人 们 的 知识 也 只 限于 此 . 因为 人 们 仍然 不 能 对 蛋白 质 结 构 和 功能 的 关系 进行 
定量 分 析 . 也 就 是 说 人 们 不 能 找到 一 种 普遍 适用 的 规律 , 依据 这 种 规律 可 以 直接 从 
蛋白 质 的 结构 来 推断 蛋白 质 的 功能 , 而 不 需要 借助 以 往 已 经 确立 的 已 知 蛋白 质 的 结 
构 与 功能 的 关系 . 


2.3 OL Hs FY 


2.3.1 ”机 器 学 习 的 定义 和 特点 


机 器 学 习 技 术 是 运用 计算 机 预测 蛋白 质 结 构 的 重要 方法 , 包括 了 隐 马 尔 可 夫 模 
型 、 贝 叶 斯 网 络 、 人 工 神 经 网 络 、 遗 传 算法 和 支持 向 量 机 等 方法 . 20 世纪 80 年 代 
初 , 计算 机 开始 应 用 于 生物 学 中 的 大 规模 数据 计算 !. 从 那 时 起 实验 生物 学 家 开 
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始 用 计算 方法 对 复杂 的 生物 学 问题 进行 建 模 并 逐渐 开始 与 其 他 领域 的 科学 家 (如 
计算 机 学 家 、 物 理学 家 、 数 学 家 和 晶体 学 家 进行 合作 ). 当时 人 们 已 经 意识 到 计算 机 
技术 模拟 和 分 析 生 物 学 数据 的 重要 性 和 潜在 价值 . 第 一 代 生 物 信 息 学 家 运用 传统 的 
计算 机 科学 算法 开发 了 计算 机 程序 来 分 析 数 据 . 然而 , 一 方面 这 些 利用 传统 算法 开 
发 的 计算 机 程序 并 不 能 很 切合 实际 地 解决 实验 中 遇 到 的 问题 , 其 原因 主要 在 于 生物 
系统 的 复杂 性 以 及 当时 缺乏 分 子 水 平 上 的 基础 理论 作为 指导 ; 另 一 方面 , 传统 的 数 
据 处 理 方法 不 能 有 效 处 理 大 量 的 、 快 速 膨胀 的 数据 . 机 器 学 习 方 法 被 应 用 于 生物 信 
息 学 领域 以 后 , 上 述 困难 逐渐 开始 被 克服 . 基于 机 器 学 习 方法 编制 的 程序 可 以 从 已 
知 数据 中 自动 地 学 习 并 且 产 生 有 用 的 假设 , 因此 机 器 学 习 方 法 理所当然 地 成 了 目前 
生物 信息 学 领域 中 比较 常用 的 方法 . 

牛津 英语 字典 (The Oxford English Dictionary, OED) 对 机 器 学 习 的 定义 
A: 计算 机 从 经 验 中 学 习 的 能 力 , 即 通过 新 获得 的 知识 修改 机 器 自身 处 理 问 题 的 
程序 . Mitchell 把 机 器 学 习 定 义 为 引起 系统 随 经 验 改 善 的 过 程 , 依据 一 定 的 算法 利 
用 数据 进行 学 习 是 机 器 学 习 方 法 的 本 质 . 机 器 学 习 可 以 定义 为 “能 够 通过 计算 机 从 
有 关 分 类 任务 的 经 验 进行 学 习 的 计算 机 程序 或 算法 "1451. 

学 习 是 智能 的 本 质 . 如 果 一 个 系统 能 够 学 习 并 通过 经 验 获 取 知 识 、 自 动 地 改善 
性 能 , 那么 它 就 是 一 个 能 处 理 复杂 问题 的 系统 , 如 生物 系统 、 先 进 的 工具 等 . 通过 
从 特殊 的 训练 样本 产生 一 般 的 函数 是 机 器 学 习 的 核心 思想 (46.47) 机 器 学 习 过 程 中 
的 学 习 媒 介 是 事先 确定 了 的 训练 数据 和 检测 样本 , 这 些 训 练 数据 和 检测 样本 是 学 习 
和 定义 学 习 机 的 前 提 . 学 习 机 必须 通过 假设 空间 中 的 向 量 来 训练 , 并 且 由 指定 的 检 
测 集 鉴 别 挑选 出 最 优 假设 . 

机 器 学 习 中 所 涉及 的 学 习 种 类 主要 包括 三 种 : 

(1) 监视 学 习 , 学 习 机 的 各 个 运行 阶段 的 输入 和 输出 都 可 以 观察 ; 

(2) 加 强 学 习 , 在 学 习 的 过 程 中 可 以 对 学 习 机 的 行为 进行 评估 , 但 是 不 能 指出 
正确 的 行为 ; 

(3) 非 监视 学 习 , 对 学 习 机 的 行为 既 不 能 观察 也 不 能 评估 . 

在 数据 库 中 杂乱 无 章 的 数据 中 寻找 存在 的 规律 和 发 现 数据 之 间 必 然 联系 的 机 
器 学 习 方 法 称 作 知识 获取 . 应 用 这 种 方法 的 前 提 条 件 是 杂乱 无 章 的 数据 中 必须 包 
含有 用 的 信息 和 知识 . 以 往 对 于 数据 进行 总 结 和 归纳 、 剔 除 挨 杂 在 数据 中 的 噪声 、 
提取 其 中 有 用 的 知识 , 依靠 的 是 具有 某 个 领域 内 专门 技能 和 知识 的 专家 . 目前 利用 
这 种 传统 的 方法 对 生物 数据 库 中 数据 的 分 析 却 遇 到 了 极 大 的 困难 , 因为 对 这 么 大 量 
数据 的 分 析 所 耗费 的 人 力 和 物力 是 人 们 承担 不 起 的 中 ~50. 

构造 机 器 学 习 的 出 发 点 在 于 设计 能 够 类 似 人 类 一 样 通过 以 往 的 经 验 学 习 并 能 
从 已 知 数据 发 现 新 知识 的 机 器 . 机 器 学 习 的 这 个 特点 很 适应 于 生物 信息 学 . 首先 因 
为 生物 信息 学 研究 的 主要 内 容 寓于 高 度 复杂 的 生物 系统 , 另外 更 重要 的 是 分 子 生物 
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学 研究 的 理论 强烈 依赖 于 实验 数据 .实际 上 机 器 学 习 最 早 应 用 的 领域 就 是 分 子 生 
物 学 (51), 

机 器 学 习 技术 在 生物 信息 学 中 另 一 个 受 欢迎 的 原因 就 是 它们 以 问题 导向 为 原 
WW. 学 习 机 能 够 根据 实际 情况 修改 自身 结构 、 适 应 当前 数据 环境 来 更 好 地 解决 实际 
问题. 人们 使 用 机 器 学 习 方法 寻找 数据 所 蕴涵 规律 的 前 提 是 人 们 首先 能 够 理解 这 些 
技术 产生 的 理论 背景 和 运行 规律 . 很 多 生物 系统 内 的 规律 都 必须 通过 实例 或 经 验 数 
据 才 能 定义 , MARIA BSL. 人 们 可 以 人 为 地 指定 这 类 问题 的 输入 和 输出 , 但 
是 并 不 清楚 决定 这 种 输入 和 输出 的 内 在 规律 . 机 器 学 习 的 优越 性 在 于 能 够 通过 学 习 
机 的 学 习 自 动 调 整 它 们 自身 的 内 在 结构 来 得 出 近似 结果 . 

机 器 学 习 的 第 三 个 优势 在 于 它们 能 够 很 轻易 地 适应 新 环境 .这 种 优势 对 于 分 
子 生物 学 研究 尤其 重要 . 分 子 生 物 学 的 研究 每 天 都 要 产生 大 量 新 数据 , 这 些 新 数据 
会 更 新 前 面 研究 总 结 出 的 概念 和 结论 . 那么 用 来 分 析 分 子 生物 学 数据 的 工具 必须 能 
够 随时 修改 自身 的 结构 以 适应 产生 的 新 数据 , 并 可 以 通过 这 些 新 数据 获得 新 知识 、 
产生 新 假设 . 

机 器 学 习 技 术 大 体 包 括 两 类 . 一 类 是 数据 生成 方法 , 如 隐 马 尔 可 夫 模型 和 贝 叶 
斯 网 络 ; 另 一 类 是 数据 判断 的 方法 , 如 和 人工 神经 网 络 、 遗 传 算 法 和 支持 向 量 机 . 生物 
信息 学 中 不 同类 别 机 器 学 习 方法 的 选择 依赖 于 学 习 目 标 和 执行 的 任务 . 在 生物 信息 
学 中 使 用 正确 的 方法 会 改善 假说 的 不 确定 性 并 且 使 发 现 的 知识 更 可 靠 . 

数据 元 余 和 污染 在 生物 数据 中 是 司空 见 惯 的 事情 . 生物 信息 学 数据 库 中 的 数据 
一 般 都 是 由 科研 人 员 通 过 互联 网 递交 的 ; 在 数据 的 积累 和 通过 互联 网 递交 到 公共 数 
据 库 的 过 程 中 , 检测 数据 的 错误 和 度量 数据 的 质量 都 很 困难 . 多 数 使 用 这 些 数据 的 
生物 信息 学 研究 人 员 没 有 考虑 到 数据 源 的 来 源 和 质量 . 这 些 受 到 污染 的 生物 学 数 
据 会 影响 计算 机 程序 运算 结果 的 精确 性 . 生物 学 数据 的 污染 可 能 由 以 下 原因 引起 : 

(1) 实验 错误 ; 

(2) 生物 学 家 的 错误 解释 ; 

(3) 注释 过 程 中 的 人 为 错误 ; 

(4) 实验 中 使 用 的 非 标准 技术 . 

生物 学 研究 是 高 度数 据 驱 动 的 , 绝 大 多 数 的 生物 学 假设 都 必须 有 实验 数据 作 
为 依据 . 虽然 机 器 学 习 技 术 具 有 和 鲁 棒 性 , 可 以 在 受到 污染 的 数据 中 进行 学 习 并 得 到 
有 价值 的 结论 , 但 是 高 质量 的 数据 可 以 更 好 地 发 挥 机 器 学 习 的 效能 、 得 到 更 为 客观 
的 结论 . 因此 在 运用 机 器 学 习 方法 处 理 生 物 学 问题 时 应 该 跟 实验 生物 学 家 很 好 沟通 
以 便 获 取 高 质量 的 数据 ,数据库 中 的 数据 也 需要 常常 校对 以 保持 数据 具有 较 高 的 
质量 . 

2.3.2 ”基本 的 机 器 学 习 模 型 
一 般 来 说 , 学 习 模 型 包含 4 SERA M4), 这 些 组 件 是 : 
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(1) 学 习 要 素 , 改善 学 习 机 性 能 部 件 ; 

(2) 执行 要 素 , 选择 学 习 机 行为 的 部 件 ; 

(3) 评价 要 素 , 学 习 机 的 监视 部 件 ; 

(4) 问题 发 生 器 , 产生 新 知识 的 部 件 . 
2.3.3 ”机 器 学 习 方 法 分 类 

机 器 学 习 方法 在 生物 信息 学 研究 中 主要 从 事 在 已 知 的 各 种 生物 数据 库 中 发 现 
知识 并 且 把 所 发 现 的 知识 以 人 们 能 够 理解 的 方式 表达 出 来 . 即 ， 

(1) 分 类 : 预测 数据 的 类 别 . 

(2) 描述 : 描述 数据 的 类 别 . 

(3) RA: 规 类 数据 . 

(4) 联系 分 析 : 寻找 关系 和 联系 . 

(5) 预测 : 预测 参数 的 值 . 

(6) 检测 偏差 : 发 现 数据 的 变化 . 

(7) 可 视 化 : 以 方便 人 们 观察 的 方式 表现 数据 . 

这 些 方 法 大 体 可 以 分 为 两 类 : 一 类 是 数据 生成 的 方法 , 包括 分 类 、 描 述 、 聚 类 
和 可 视 化 ; 另 一 类 是 数据 检测 的 方法 , 包括 联系 分 析 、 预 测 和 检测 偏差 . 


2.3.4 ”应 用 于 生物 信息 学 领域 的 机 器 学 习 方 法 
2.3.4.1 人 工 神 经 网 络 


人 工 神经 网 络 的 灵感 来 自 人 脑 的 生物 神经 网 络 的 发 现 .神经 元 是 大 脑 执行 其 
功能 的 独立 单位 , 它们 可 以 把 信息 传导 给 复杂 神经 网 络 中 的 其 他 神经 元 . 计算 机 学 
家 根据 大 脑 工 作 的 原理 设计 出 了 执行 运算 任务 的 平台 和 网 络 , 这 种 执行 运算 任务 的 
网 络 中 的 各 个 节点 类 似 于 大 脑 中 的 神经 元 63 . 在 人 们 可 以 理解 和 模拟 大 脑 处 理 信 
息 的 过 程 后 , 科学 家 着 手 研 究 人 工 神经 网 络 . ALLEN AR, 人 工 神经 网 络 技术 
逐步 走向 成 熟 并 开始 应 用 于 解释 生物 信息 学 中 遇 到 的 实际 问题 . 

神经 网 络 是 由 很 多 节点 构成 的 网 状 结构 ， 网 状 结构 中 每 一 个 节点 都 可 以 被 赋予 
数值 . 模式 之 间 的 转换 依赖 于 所 有 链接 在 一 起 的 节点 和 简单 的 信息 通过 算法 . 每 一 
个 节点 都 可 以 看 成 是 一 个 统计 处 理 器 , 节点 的 决策 依赖 于 已 知 数据 的 概率 假设 . 人 
工 神经 网 络 利用 控制 节点 的 数值 和 权重 来 执行 对 问题 的 学 习 和 分 类 . 

人 工 神经 网 络 由 相互 链接 在 一 起 的 多 层 节 点 构成 . 网 络 中 一 般 包含 三 个 层次 : 
输入 层 、 输 出 层 以 及 它们 之 间 的 隐 含 层 . 由 于 人 工 神经 网 络 中 内 部 节点 的 组 织 形 
AAA, 人 工 神经 网 络 可 以 分 成 不 同 的 结构 类 型 ， 比 如 前 馈 结 构 、 循 环 结构 和 层次 
结构 . 


2.3 机 器 学 习 £7 


人 工 神经 网 络 是 目前 生物 信息 学 中 应 用 最 广泛 的 机 器 学 习 方法 , 它 也 是 生物 分 
析 领 域 应 用 最 早 的 机 器 学 习 技 术 OU, 虽然 人 工 神经 网 络 具有 复杂 的 统计 学 模型 ， 
但 是 这 种 模型 非常 灵活 多 变 , 善于 处 理 离散 值 和 向 量 值 样本 . 另外 , 人 工 神经 网 络 
AA BEE, 即 对 噪音 的 不 敏感 性 .这 种 特征 在 分 析 受 噪音 污染 的 数据 时 很 有 用 . 
然而 , 统计 学 模型 的 复杂 性 同时 也 对 人 工 神经 网 络 处 理 问题 带 来 一 定 的 负面 影响 . 
人 工 神经 网 络 的 另外 一 个 缺陷 是 它 缺 乏 解释 能 力 . 很 难 运用 解释 网 络 中 每 一 个 节 
点 的 决策 和 方法 来 判断 网 络 是 否 可 行 ， 人 工 神经 网 络 在 蛋白 质 结构 和 功能 预测 及 
蛋白 质 分 类 方面 用 处 很 广泛 3.94, 


2.3.4.2 RRA 


决策 树 也 被 称 作 分 类 树 和 回归 树 65, 这 种 机 器 学 习 方 法 由 Quinlan 最 早 开发 . 
决策 树 是 利用 近似 离散 值 函数 分 类 和 评估 方法 的 一 种 感应 学 习 系 统 . 它 具 有 结构 简 
单 、 操 作 方 便 的 特点 , 是 一 种 得 到 广泛 应 用 的 机 器 学 习 方 法 . 

Divide-and-conquer 策略 是 决策 树 方法 解决 问题 的 基本 方法 [556. 根据 这 种 策 
略 , 构建 决策 树 需要 预先 选择 样本 集 , 样本 集 首 先 被 赋予 一 系列 属性 , 决策 树 通过 
返回 “是 ”或 “ 否 ” 的 决策 来 响应 样本 的 检测 . 同时 样本 集中 每 一 类 的 样本 发 生 的 
概率 也 可 以 从 决策 树 的 相应 节点 上 得 到 决策 树 是 一 个 具有 根 、 茎 和 叶 的 树 状 结 
构 , 与 自然 界 中 的 树 不 同 的 是 决策 树 是 倒置 的 . 枝 干 是 决策 树 的 节点 , 每 一 个 节点 
用 来 测试 样本 集中 样本 的 一 种 属性 .从 节点 引出 的 枝 干 标记 测试 节点 的 可 能 输出 
项 . 如 果 所 有 样本 都 属于 同一 类 , 那么 决策 树 就 是 一 片 叶子 . 否则 , 决策 树 就 会 延伸 
出 更 多 的 枝 干 来 测试 样本 . 决策 树 的 每 一 片 叶 子 都 是 一 个 输入 样本 的 布尔 分 类 器 ， 
节点 是 这 些 样本 的 监测 器 . 

决策 树 的 优势 在 于 它 结构 简单 、 操 作 方 便 、 具 有 抗 噪 的 鲁 棒 性 以 及 能 清晰 地 表 
达 学 习 的 结果 . 但 是 决策 树 方法 对 于 数据 的 过 适应 没有 好 的 预防 方法 , 同时 也 不 能 
很 好 地 解决 各 种 类 别 之 间 的 重 肥 问题 , 另外 决策 树 还 具有 很 难 优化 的 缺点 . 


2.3.4.3 贝 叶 斯 网 络 


概率 是 事件 的 置信 度 ,， 贝 叶 斯 网 络 或 贝 叶 斯 信心 网 络 (BBN) 是 一 系列 相关 变 
量 之 间 概 率 关系 的 图 形 模型 OT 贝 叶 斯 网 络 是 由 一 系列 相关 变量 的 独立 条 件 声明 
编码 的 网 络 结构 和 一 系列 独立 变量 的 局 部 概率 分 布 组 成 , 整合 这 两 个 系列 产生 了 相 
关 变 量 的 联合 概率 分 布 . 统计 学 模型 结合 进 贝 叶 斯 网 络 后 , 图 形 模型 能 够 根据 由 相 
关 变 量 之 间 相 互 关 系 得 到 的 概率 做 出 最 好 的 决策 . 网 络 中 使 用 权重 概率 可 以 帮助 
支持 假设 . 贝 叶 斯 网 络 提供 了 一 个 处 理 数据 分 析 的 通用 的 方法 . 贝 叶 斯 网 络 的 优势 
在 于 它 能 够 操作 不 完整 的 数据 集 , 并 能 够 学 习 和 预测 缺少 的 数据 . 另外 当 联系 背景 
知识 和 数据 时 , 贝 叶 斯 网 络 是 一 个 理想 的 数据 表示 法 . 与 其 他 的 机 器 学 习 方 法 相 比 ， 
它们 可 以 提供 一 个 标准 的 优化 方法 . 对 于 计算 的 复杂 性 来 说 , 这 些 网 络 规避 了 数据 
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的 过 适应 . 贝 叶 斯 理论 表明 : 主观 的 信念 应 当 遵 循 概率 原则 ,正确 的 归纳 应 以 独立 
的 方式 推理 并 通过 贝 叶 斯 网 络 进行 传播 MO). 贝 叶 斯 网 络 曾经 用 于 DNA 序列 结合 
位 点 的 建 模 PS) 和 蛋白 质 二 级 结构 的 预测 9. 


2.3.4.4 mee 


遗传 算法 是 Holland 受到 生物 进化 理论 的 启发 而 研究 成 功 的 机 器 学 习 技 术 . 遗 
传 算法 的 主要 观点 是 描述 维持 问题 候选 答案 的 数据 结构 群落 ,利用 控制 变量 来 改 
善 学 习 系统 性 能 的 竞争 来 进行 进化 , 数据 群落 通过 再 结合 和 突变 过 程 来 适应 新 的 环 
境 . 备 选 答案 的 最 终 目的 是 变 成 环境 中 最 优化 的 解决 方法 (901 . 

遗传 算法 从 群落 遗传 学 的 观点 来 说 是 宽松 的 . 利用 遗传 算法 解决 问题 时 , 首先 
考虑 到 要 解决 问题 的 相关 环境 .从 环境 中 随机 选择 一 些 样本 对 其 进行 二 进 制 编码 
作为 备 选 数据 .由 于 这 些 样 本 目 身 性 质 的 不 同 , 其 中 包含 一 些 更 适应 环境 的 样本 ， 
即 更 好 的 结果 . 每 个 循环 后 样本 都 会 进化 . 依据 各 个 个 体 的 生存 能 力 不 同 , 选择 新 
样本 的 标准 也 不 尽 相 同 . 在 保留 了 比较 成 功 的 个 体 、 删 除了 不 太 成 功 的 个 体 后 新 的 
候选 样本 就 产生 了 . 在 处 理 的 过 程 中 依赖 突变 (随机 的 二 进 制 数码 变化 )、 交 叉 ( 相 
应 的 子 字 段 的 交换 ) 和 在 进化 循环 中 的 其 他 字段 变化 , 进化 循环 持续 进行 直到 产生 
了 理想 的 结果 (最 高 的 适应 值 ). 最 终 个 体 集合 保留 了 从 上 一 代 遗 留 的 最 好 特征 并 呈 
现 了 最 适应 的 解 . 遗传 算法 在 用 来 发 现 和 解决 高 维 空间 中 的 复杂 问题 时 简单 易 用 ， 
并 且 对 于 不 同 环境 具有 重 棒 性 . 其 不 足 之 处 在 于 在 进化 过 程 中 不 是 动态 的 [61. 


23.45 隐 马 尔 可 夫 模 型 


隐 马 尔 可 夫 模 型 是 强 有 力 的 识别 算法 , 它 是 由 马尔 可 夫 链 演变 而 来 的 、 用 于 描 
述 随 机 过 程 统 计 特 征 的 概率 模型 . 隐 马 尔 可 夫 模 型 之 所 以 加 上 “ 隐 ” 字 , 是 由 于 人 
们 不 能 直接 观察 到 马尔 可 夫 模 型 处 于 哪 种 状态 , 只 能 观察 到 由 那 种 状态 产生 的 观察 
RE. 隐 马 尔 可 夫 模 型 及 其 扩展 模型 在 “多 序列 隐藏 模式 ”的 发 现 方 面 取得 了 很 好 
的 效果 . 典型 的 隐 马 尔 可 夫 模 型 是 一 种 具有 匹配 、 插 入 和 删除 节点 的 节点 链 , 每 一 
个 节点 间 的 状态 转换 、 插 入 或 匹配 节点 的 特征 都 被 赋予 一 定 的 概率 值 . 通过 隐 马 尔 
可 夫 链 的 最 佳 路 径 与 从 开始 到 结束 所 遍 有 历 的 插入 或 匹配 的 节点 路 径 是 相应 的 . 隐 
马尔 可 夫 模 型 识别 系统 之 所 以 优 于 样本 匹配 系统 在 于 隐 马 尔 可 夫 模型 中 保留 了 更 
多 训练 数据 的 统计 信息 . 

在 20 世纪 90 年 代 初 , 这 种 模型 开始 应 用 于 生物 信息 学 的 研究 中 . 从 那 时 起 隐 
马尔 可 夫 模 型 常用 于 系列 模型 化 、 多 重 比 对 和 有 蛋白质 结构 预测 [63. 

基因 序列 工程 所 面临 的 重要 任务 是 确定 新 蛋白 质 的 功能 和 结构 特征 ， 未知 蛋 
白质 的 结构 和 功能 特征 可 以 通过 与 已 知 的 同 源 蛋 白质 的 结构 和 功能 进行 比 对 推断 
出 来 . 隐 马 尔 可 夫 模 型 在 同 源 蛋 白质 结构 比 对 中 得 到 了 广泛 的 应 用 . 
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2.3.46 Fr 
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由 于 不 同类 的 样本 其 性 质 有 着 明显 的 差异 ， 人 们 可 以 根据 一 定 的 方法 根据 这 些 不 
同 点 把 不 同 的 样本 划分 成 不 同 的 类 别 . 使 用 聚 类 方法 所 依据 的 唯一 数据 就 是 各 个 样 
本 点 的 坐标 , 除了 各 个 样本 点 的 数值 坐标 之 外 , 不 需要 任何 其 他 的 先 验 知识 . 聚 类 
的 方法 多 种 多 样 , 但 是 使 用 聚 类 方法 所 需要 解决 的 核心 问题 有 两 个 : 第 一 , 样本 的 
相似 性 度量 问题 ; 第 二 , 聚 类 准则 问题 . 样本 相似 性 度量 就 是 对 两 个 样本 间 的 相似 
性 达到 什么 程度 给 出 一 个 量化 的 指标 . 常用 的 相似 性 度量 有 距离 、 相 关系 数 和 来 角 
方向 余弦 三 种 . 聚 类 方法 大 致 可 分 为 两 类 : 一 类 是 启发 式 方法 , 根据 经 验 直观 地 确 
定 一 些 准则 ; 另 一 类 是 最 优化 技术 , 根据 聚 类 问题 的 实际 背景 确定 聚 类 的 目标 函数 . 
这 样 一 来 , 聚 类 问题 就 转化 成 了 优化 问题 , 从 而 可 用 成 熟 的 、 经 典 的 优化 方法 处 理 
聚 类 问题 . 聚 类 算法 可 分 为 两 类 : 第 一 , 基于 概率 密度 函数 估计 的 直接 方法 ; 第 二 ， 
基于 样本 间 相 似 度量 的 间接 聚 类 方法 . 

聚 类 是 一 种 探索 的 方法 , 这 种 方法 可 以 用 来 组 织 、 鉴 别 数据 . 改良 的 聚 类 算法 
可 以 用 于 预测 和 解释 复杂 的 数据 . 等 级 聚 类 和 k 聚 类 是 聚 类 算法 的 两 个 主要 类 型 . 
等 级 聚 类 方法 中 , 输入 数据 被 聚集 成 不 同 层次 的 从 ; k 聚 类 方法 中 , 每 一 个 输入 目标 
都 根据 数据 集 的 性 质 归 入 某 一 类 . 

有 两 种 聚 类 观测 数据 的 方法 : 第 一 种 基于 物理 化 学 理论 ; 第 二 种 基于 计算 方法 
和 数据 的 统计 分 析 . 给 定 一 个 数据 集 ; 聚 类 媒介 根据 数据 的 性 质 把 数据 归 类 到 较 小 
的 类 中 . 这 样 , 聚 类 就 是 一 种 描述 和 表达 的 方法 , 输出 的 结果 可 以 很 容易 地 被 别人 
理解 [63] 


2.3.4.7 支持 向 量 机 


支持 向 量 机 是 由 Vapnik 和 他 的 同事 共同 开发 的 基于 统计 学 习 理 论 和 VC 维 理 
论 的 结构 风险 最 小 化 原则 的 机 器 学 习 方法 . 由 于 它 的 卓越 功能 使 得 它 已 经 成 为 机 
器 学 习 和 数据 挖掘 的 标准 工具 之 一 (4, 支持 向 量 机 实现 的 是 如 下 的 思想 : 通过 某 
种 事先 选择 的 非 线性 映射 将 输入 向 量 z 映射 到 一 个 高 维 空间 中 构造 最 优 分 类 的 超 
平面 . 支持 向 量 机 在 处 理 训练 样本 时 像 人 工 神经 网 络 一 样 是 一 个 “黑箱 ”算法 [651. 
支持 向 量 机 的 主要 思想 是 使 用 超 平 面 来 分 类 不 同性 质 的 数据 .对 于 线性 不 可 分 的 
数据 , 首先 通过 核 函 数 把 它们 映射 到 高 维特 征 空间 . 在 高 维特 征 空间 中 , 这 些 数据 
被 线性 分 类 , 那么 这 些 数据 就 在 原 输入 空间 中 非 线性 分 类 [7",661. 支持 向 量 机 的 劣 
势 在 于 训练 和 检测 过 程 中 花费 的 计算 成 本 过 高 , FF AGRE eA AED [671. 

另外 除了 以 上 阐述 的 单一 方法 以 外 , 解决 生物 信息 学 问题 的 工具 中 还 包括 了 多 
重 机 器 学 习 技 术 . 也 许 这 是 因为 把 不 同 的 方法 组 合 在 一 起 可 以 弥补 单一 方法 的 弱 
Fa, 从 而 得 到 更 好 的 学 习 结 果 . 虽然 多 重 方法 的 执行 结果 好 于 单一 方法 的 执行 结果 ， 
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但 是 怎样 组 合 所 要 使 用 的 方法 并 不 是 一 件 简单 的 事情 . 这 是 因为 各 种 机 器 学 习 方法 
的 学 习 过 程 和 所 输出 的 结果 不 尽 相 同 . 一 个 成 功 组 合 多 种 机 器 学 习 方 法 的 实例 是 隐 
神经 网 络 (65), 隐 神 经 网 络 是 隐 马 尔 可 夫 模型 和 神经 网 络 的 组 合 . 不 同 的 机 器 学 习 
方法 组 合 在 一 起 可 能 极 大 地 拓展 了 机 器 学 习 方法 在 生物 信息 学 中 的 应 用 范围 . 


第 3 章 ”统计 学 习 理论 
3.1 学 习 问 题 的 表示 方法 


3.1.1 ”概述 


统计 学 习 理 论 是 Vapnik 等 在 20 世纪 70 年 代 末 提 出 , 并 于 90 年 代 逐 渐 完 善 
的 一 种 针对 小 样本 的 机 器 学 习 理论 . 在 此 理论 上 构造 的 支持 向 量 机 已 经 成 为 构造 预 
测 规则 的 通用 方法 4647) 该 理论 认为 根据 不 同 科 学 领域 所 描述 规律 的 复杂 性 不 同 ， 
用 少数 几 个 变量 可 以 描述 的 科学 领域 称 为 简单 世界 , 而 必须 用 多 个 变量 才能 描述 的 
科学 领域 称 为 复杂 世界 . 建立 在 两 个 世界 中 的 推理 方法 是 不 一 样 的 , 其 中 简单 世界 
的 推理 方法 为 61: 

(1) 演绎 , 即 由 一 般 到 特殊 的 过 程 ; 

(2) 归纳 , 即 由 特殊 到 一 般 的 过 程 . 

这 两 种 推理 过 程 的 数学 表示 就 是 概率 论 和 数理 统计 . 概率 论 是 演绎 的 数学 理论 
体系 , 而 数理 统计 是 归纳 的 数学 理论 体系 . 在 复杂 世界 中 这 种 推理 方法 是 不 适用 的 ， 
因为 复杂 世界 中 的 问题 很 多 是 不 适 定 的 , 即 在 现实 中 就 会 出 现 这 样 一 种 情况 : SA 
们 反 演 问题 的 因果 关系 时 ， 由 于 结果 的 轻微 变化 会 导致 对 原因 的 反 演 很 可 能 与 客 
观 现实 相去 甚 远 ， 这 种 问题 称 为 不 适 定 问题 , 这 种 问题 可 以 通过 正则 化 技术 解决 . 
面 对 这 种 情况 , Vapnik 等 认为 解决 复杂 世界 中 的 问题 的 推理 方法 应 该 为 “归纳 ”和 
“ 转 导 —— 从 特殊 到 特殊 ”的 推理 . 而 在 解决 具体 问题 时 , 要 避免 把 解决 一 个 更 为 
一 般 的 问题 作为 其 中 间 步 又. 它 的 核心 问题 是 寻找 一 种 归纳 原则 以 实现 最 小 化 风 
险 泛 函 , 从 而 实现 最 佳 的 推广 能 力 . 该 理论 研究 从 一 些 观 测 数据 出 发 得 出 目前 尚 不 
能 从 原理 分 析 或 实验 得 到 的 规律 , 并 利用 这 些 规 律 去 分 析 客 观 对 象 以 实现 对 未 来 数 
据 和 无 法 观测 的 数据 进行 预测 

在 统计 学 习 理论 中 , 把 学 习 问 题 看 作 是 利用 有 限 数量 的 观测 来 寻找 待 求 的 依赖 
关系 的 问题 . 从 实例 中 学 习 就 是 运用 了 “ 转 导 ”这 种 推理 原则 . 从 实例 学 习 的 方法 
非常 类 似 老 师 教 小 学 生 认 字 , 老师 并 没有 描述 每 个 字 的 精确 结构 , 而 是 给 他 们 一 些 
具体 文字 的 例子 . 通过 仔细 观察 了 解 这 些 文字 的 一 些 特征 以 后 , 学 生 不 但 能 识别 印 
刷 体 的 文字 , 还 能 识别 手写 体 的 文字 [7 . 

以 往 机 器 学 习 理论 的 核心 是 经 验 风 险 最 小 化 归纳 原则 . 依据 这 种 原则 , 如 果 能 
找到 一 个 相当 逼近 这 些 样本 的 函数 并 以 大 量 的 样本 进行 训练 , 那么 就 可 能 对 工作 样 
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本 做 出 较 准确 的 预测 . 然而 , 如 果 学 习 机 器 能 力 过 强 , 能 够 无 误差 地 适应 任意 的 训 
练 样本 , 就 会 导致 它 所 采用 的 函数 集 过 于 复杂 , 产生 过 学 习 的 现象 . 

Vapnik 提出 了 VC 维 的 概念 “9 , 它 是 统计 学 习 理论 的 核心 概念 . VC 维 是 描 
述 函数 集 或 学 习 机 器 的 复杂 性 或 者 说 是 学 习 能 力 的 一 个 重要 指标 . 

与 经 验 风险 最 小 化 原则 不 同 , 统计 学 习 理 论 依据 结构 风险 最 小 化 原则 进行 推 
理 . 结构 风险 最 小 化 原则 定义 了 给 定数 据 的 逼近 精度 和 逼近 函数 的 复杂 性 之 间 的 
一 种 折 中 . 该 原则 首先 定义 了 一 种 函数 集 的 典 套 结构 : 


OT GC 5 C= C55, ee 


这 些 函 数 集 的 VC 维 从 小 到 大 排列 , 这 样 函数 集 的 VC 维 就 成 为 了 可 控 参 数 . 对 一 
个 给 定 的 训练 集 , 结构 风险 最 小 化 归纳 原则 上 在 使 风险 上 界 最 小 的 子 集 Sx 中 选择 
使 经 验 风 险 最 小 的 函数 . 结构 风险 最 小 化 归纳 的 一 般 原 则 可 以 用 不 同 的 方法 实现 . 

学 习 理 论 的 最 终 研究 目标 就 是 希望 找到 从 样本 学 习 的 公式 化 方法 , 遵循 这 种 方 
法 研究 者 通过 一 段 时 间 对 数据 的 学 习 和 训练 之 后 , 能 够 得 到 一 个 分 类 器 使 它 能 够 对 
新 样本 正确 分 类 . 

支持 向 量 机 (support vector machine, SVM) 方法 建立 在 统计 学 习 理 论 的 VC 
维 理论 和 结构 风险 最 小 原理 基础 上 , 根据 有 限 的 样本 信息 在 模型 的 复杂 性 ( 即 对 特 
定 训练 样本 的 学 习 精 度 ) 和 学 习 能 力 ( 即 无 错误 地 识别 任意 样本 的 能 力 ) 之 间 寻 求 
最 佳 折 中 , 以 期 获得 最 好 的 推广 能 力 . 支持 向 量 机 方法 的 几 个 主要 优点 有 : 

(1) 它 是 专门 针对 有 限 样本 情况 的 , 其 目标 是 得 到 现 有 信息 下 的 最 优 解 而 不 仅 
仅 是 样本 数 趋 于 无 穷 大 时 的 最 优 值 ; 

(2) 算法 最 终 将 转化 成 为 一 个 对 偶 寻 优 问 题 , 从 理论 上 说 , 得 到 的 将 是 全 局 最 
优点 , 解决 了 在 神经 网 络 方法 中 无 法 避免 的 局 部 极 值 问 题 . 

支持 癌 量 机 方法 在 解决 线性 不 可 分 问题 的 分 类 时 , 首先 将 实际 问题 通过 非 线性 
变换 转换 到 高 维特 征 空间 , 在 高 维 空间 中 构造 线性 判别 函数 来 实现 原 空 间 中 的 非 线 
性 判别 函数 , 这 种 特殊 性 质 能 保证 机 器 有 较 好 的 推广 能 力 , 同时 它 巧 妙 地 解决 了 运 
算 成 本 随 独 维 数 增加 而 大 幅 提 高 , 即 维 数 灾难 问题 : 其 算法 复杂 度 与 样本 维 数 无 关 . 
3.1.2 ”学 习 问题 的 一 般 表 示 

学 习 问 题 是 利用 有 限 数量 的 观测 来 寻找 待 求 的 依赖 关系 的 问题 . 描述 样本 学 习 
的 一 般 模 型 包括 : 

(1) 产生 器 . 产生 器 产生 随机 向 量 z e R,, 这 些 样本 是 从 固定 但 未 知 的 概率 风 
函数 F (x) 中 独立 抽取 的 . 这 些 样本 就 构成 了 学 习 机 的 数据 . 发 生 器 是 源头 , 它 确 
定 了 训练 器 和 学 习 机 器 的 工作 环境 . 


3.1 学 习 问 题 的 表示 方法 ; oe. 


(2) 监视 器 . 监视 器 对 于 每 个 输入 向 量 > 返回 一 个 输出 值 %, 产生 输出 的 根据 
值 是 同样 固定 但 未 知 的 条 件 分 布 函数 F (y|c). 这 些 向 量 输入 到 目标 算 子 (训练 器 )， 
目标 算 子 返回 输出 值 /. 监视 器 由 样本 集 和 学 习 机 确定 , 并 反映 样本 的 类 别 . 

(3) 学 习 机 . 学 习 机 能 够 实现 一 定 的 函数 集 ftz,a),a s A, 其 中 4 是 参数 集合 . 
学 习 机 器 的 目标 是 构造 适当 的 逼近 , 它 依据 一 定 的 原则 对 样本 进行 分 类 . 

学 习 的 问题 就 是 从 给 定 的 函数 集 ftz,a),a € A 中 选择 出 能 够 最 好 地 逼近 训 
练 器 的 相应 函数 . 这 种 选择 是 基于 训练 集 的 ,训练 集 由 根据 联合 分 布 F (x,y) = 
F(x) F(y|z) 抽取 出 的 ! 个 独立 同 分 布 (ii.d) 观测 数据 (zl 加) ……, (zu yr) 构成 . 

构建 学 习 模 型 的 目的 在 于 通过 训练 找到 学 习 机 , 并 用 它 对 未 知 样本 点 进行 分 
类 , 监视 器 反映 分 类 结果 . 为 了 计算 方便 , 在 允许 的 精度 下 数据 集中 的 样本 ( 癌 量 ) 
ZE Rn" 认为 是 以 未 知 概率 已 (z) 独立 同 分 布地 产生 的 . 监视 器 根据 条 件 分 布 函数 
F(y|c) 确定 样本 的 实际 类 别 , 对 于 每 一 个 样本 z 都 联系 着 一 个 监视 器 的 值 y. 

在 学 习 理 论 中 , 这 种 以 “样本 -监视 器 ”对 的 形式 给 出 的 样本 学 习 方 式 称 作 监督 
学 习 , 监视 器 反映 样本 的 类 别 . 那些 具有 “样本 -监视 器 ”功能 性 , 即 监视 器 已 知 并 
利用 监视 器 值 调整 学 习 机 的 样本 称 作 训练 数据 .“ 样 本 -监视 器 ”数据 对 反映 了 输入 
域 与 输出 域 的 函数 映射 关系 , 这 个 从 样本 集 到 监视 器 输出 集 的 函数 称 为 目标 函数 . 
通过 学 习 得 到 的 目标 函数 的 估计 值 , 即 算法 的 输出 值 称 为 学 习 问 题 的 解 . 在 分 类 问 
题 中 这 个 函数 有 时 称 作 决 策 函 数 . 

学 习 的 目的 就 是 输出 一 个 对 训练 数据 集 进 行 正确 分 类 的 假设 和 一 个 用 来 正确 
适应 数据 的 学 习 算法 . 数据 集 一般 需 要 分 成 两 个 集合 , 其 中 一 个 称 作 训练 集 , 用 来 
构建 学 习 模型 . 另 一 个 称 作 检测 集 , 用 来 检测 学 习 模型 的 工作 效能 . 

DA 1 个 观测 样本 的 训练 集 


{X = (21, yi), a9 (x1, yt), TE RR, Yi 和 {+1, —1}} 


为 基础 , 选择 参数 a 的 过 程 称 作 向 量 机 训练 . 训练 集 X 由 P(x) 确定 , 能 够 得 到 的 
信息 都 包含 在 训练 集 X 中 . 另外 一 些 用 来 检测 向 量 机 对 新 数据 分 类 能 力 的 数据 集 
称 作 检验 集 . 分 类 错误 用 于 检测 机 器 整体 错误 率 . 
3.1.3 ”学 习 问 题 的 模型 

学 习 问 题 的 形式 多 种 多 样 , 包含 了 很 多 特殊 问题 . 这 些 特 殊 问题 可 以 一 般 地 表 
示 如 下 : 设 有 定义 在 空间 2 上 的 概率 测度 F(z). 考虑 函数 的 集合 Q(z,a),a e A. 
学 习 目 标 是 最 小 化 风险 泛 函 


R(a) = | Q.a)ar(@), aes (3.1) 
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其 中 概率 测度 F(z) 未 知 , 但 给 定 了 一 定 的 独立 同 分 布 样本 
Bian ay (3.2) 


这 种 一 般 问 题 就 是 在 经 验 数据 (3.2) 式 基础 上 最 小 化 风险 泛 函 (3.1) 式 , 其 中 z 代 
表 了 数据 对 (x,y). BZ PR (3.1) 式 是 定义 在 分 布 域 上 关于 损失 函数 的 不 定 积分 ， 
简称 风险 . 其 中 Q(z,a) =y— f (z,a) 称 作 损失 , 在 二 元 分 类 中 它 的 值 只 可 能 取 0 
或 ;1. 

评价 一 个 学 习 模 型 性 能 优 劣 的 定性 标准 之 一 就 是 检验 这 个 学 习 机 错误 分 类 的 
概率 , 即 监视 器 的 值 y 与 学 习 机 的 预测 值 f(z;a) 的 差异 . 构建 风险 函数 的 目的 是 
要 找到 参数 a* 以 确定 整个 函数 集 flz,a) 的 最 小 风险 flz,af), 其 中 ae A. 但 问题 
在 于 P(x) 的 值 未 知 , 不 能 直接 由 积分 计算 得 到 学 习 机 分 类 错误 值 , 所 以 只 有 通过 
最 小 风险 ffz,a#) 对 学 习 机 分 类 错误 水 平 进行 估计 . 


3.1.4 经验 风 险 最 小 化 原则 


经 验 风险 最 小 化 归纳 原则 : 
(1) 把 风险 泛 函 R(a) 替换 为 经 验 风 险 泛 函 


l 
Remp (@) = ; > 2&2) (3.3) 
2 二 


是 在 训练 集 (3.2) 上 得 到 的 . 

(2) 使 用 经 验 风 险 泛 函 (3.3) 式 最 小 的 函数 Q (z,w) 逼近 使 风险 (3.1) 式 最 小 
的 函数 Q (z, a0). 

理论 风险 函数 是 积分 的 形式 , 而 因为 以 往 的 经 验 是 有 限 的 , 所 以 经 验 风险 的 形 
式 是 求 和 的 形式 . 通过 对 (3.3) 式 的 观察 可 以 看 出 , 风险 函数 Remp(a) 与 损失 的 平 
均值 有 关 . 由 于 公式 并 不 涉及 概率 分 布 , 对 于 特定 的 a 和 训练 集 (3.2)，Remp(a) 可 
以 唯一 确定 . 因此 在 训练 集 (3.2) 的 基础 上 , 如 果 用 经 验 风险 函数 Renp(a) 代替 
理论 风险 函数 R(o), 那么 理论 风险 函数 的 最 小 值 f(z,a*) 可 以 作为 经 验 风险 函数 
jF(z,az) 的 近似 估计 值 . ‘ 

经 验 风险 最 小 化 原则 应 用 非常 普遍 . 改变 损失 函数 , 经 验 风险 最 小 化 原则 可 以 
用 在 最 小 二 回归 估计 和 稠密 性 估计 的 最 大 似 然 估计 中 . 如 果 当 ! 一 co IN, R(a®) 和 
Remp(a®) ABCC US: RUE RSE infc4R(a) 那么 这 个 学 习 过 程 就 称 作 同 
3.1.5 ”复杂 性 和 推广 能 力 


根据 人 们 对 机 器 学 习 研 究 的 经 验 , 最 小 的 训练 误差 不 一 定 产生 最 好 的 预测 效 
果 . 学 习 机 器 对 未 来 输出 进行 正确 预测 的 能 力 称 为 推广 性 . 以 往 的 学 习 机 器 常 遇 到 


3.2 ”统计 学 习 理 论 的 四 个 部 分 -25- 


过 学 习 的 情况 , 之 所 以 出 现 这 种 情况 是 因为 : O 学 习 样 本 太 少 ; @ 学 习 机 器 设计 不 
合理 . 如 果 用 一 个 过 于 复杂 的 模型 进行 拟 合 有 限 样本 时 , 常 导致 过 学 习 使 模型 丧失 
推广 能 力 . 这 是 有 限 样本 下 学 习 机 器 的 复杂 性 与 推广 能 力 之 间 的 矛盾 [83. 那么 在 
样本 有 限 情 况 下 : 

(1) 经 验 风 险 最 小 并 不 一 定 意味 着 期 望 风险 最 小 ; 

(2) 学 习 机 器 的 复杂 性 不 但 与 所 研究 的 系统 有 关 , 而 且 要 和 有 限 的 学 习 样本 相 
适应 . 
3.1.6 ”模式 识别 问题 


如 果 存 在 两 类 数据 ， 它 们 的 分 布 函数 服从 两 个 不 同 的 统计 规律 pi (z,a*) 和 
po (za*). 若 第 一 类 数据 出 现 的 概率 是 qi, 第 二 类 出 现 的 概率 是 1 - qi. 那么 模式 
识别 问题 就 是 寻找 一 个 决策 规则 使 错误 的 概率 最 小 , 即 若 向 量 z 属于 第 一 类 的 概 
率 不 小 于 它 属 于 第 二 类 的 概率 , 决策 规则 就 认为 这 个 向 量 属于 第 一 类 . 用 不 等 式 表 
示 就 是 

M191 (x, a*) > (1 — q1) po (2, 8") 


这 个 决策 规则 可 以 表示 成 下 面 的 等 价 形式 : 


f (x) = sign {inp (x, a*) — In po (x, B*) + In “te 
a 


称 作 判 别 函 数 , 使 用 这 个 判别 函数 的 前 提 是 必须 估计 概率 密度 pl(z,a*) 和 Po (x, 8"). 


3.2 ”统计 学 习 理 论 的 四 个 部 分 


统计 学 习 理 论 的 四 个 部 分 包括 : @ 学 习 过 程 的 一 致 性 理论 ; @ SULEKHA 
速度 的 非 渐 进 理论 ; @ 控制 学 习 过 程 的 推广 能 力 的 理论 ; © 构造 学 习 算法 的 理论 . 
前 三 个 理论 说 明了 为 什么 支持 向 量 机 是 合理 的 , 在 此 基础 上 后 面 一 个 理论 说 明了 怎 
么 构建 支持 向 量 机 . 
3.2.1 学习 过 程 的 一 致 性 

3.2.1.1 学 习 问 题 的 关键 定理 

阐述 这 一 部 分 理论 的 目的 是 找 出 学 习 过 程 一 致 性 的 充分 必要 条 件 . 经 验 风险 最 
小 化 学 习 过 程 一 致 性 的 充分 必要 条 件 回 答 了 使 经 验 风 险 最 小 的 学 习 过 程 在 什么 时 
候 能 够 取得 实际 风险 最 小 的 问题 . 学 习 一 致 性 条 件 的 结论 是 统计 学 习 理 论 的 基础 ， 
也 是 该 理论 与 传统 渐进 统计 学 的 基本 联系 所 在 . 学 习 过 程 一 致 性 是 指 当 训练 样本 
数目 趋 于 无 穷 大 时 , 经 验 风 险 的 最 优 值 能 够 收敛 到 真实 风险 的 最 优 值 . 只 有 满足 一 
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致 性 条 件 , 才能 保证 在 经 验 风 险 最 小 化 原则 下 得 到 的 最 优 方法 , 当 样 本 无 穷 大 时 趋 
近 于 使 期 望 风险 最 小 的 最 优 结果 [69]. 
设 函 数 集 Q(z,aj,a € A HERE 


A<|Q(,a)dF @) <B, A<R(a)<B (3.4) 


ABA, ERM 原则 一 致 性 的 充分 必要 条 件 是 : 经 验 风 险 Remp(a) 在 函数 集 Q(z, a), a € 
A 上 在 如 下 意义 下 一 致 收敛 于 实际 风险 RR(a): 


jim P {sup (R (a) — Remp (@)) > :} =), Youur (3.5) 
race aca 


这 种 一 致 收敛 称 为 一 致 单 边 收 和 敛 . 这 个 定理 称 为 关键 性 定理 . 

根据 学 习 问 题 的 关键 定理 , ERM 原则 的 一 致 性 等 价 于 (3.5) 式 的 一 致 单 边 收 
SURI. 

3.2.1.2 7aTBREHBSER BK 

tH AN PR BE AI AE KK PR BE et PE PER BE. 1 Q(z,a),a€ 
A 是 一 个 指示 函数 集 , 考虑 样本 21,---, 21, 定义 了 一 个 量 N4 (x,---, 21), CRRT 
指示 函数 集中 的 函数 能 把 给 定 的 样本 分 成 多 少 种 不 同 的 分 类 . 这 个 量 表 征 函 数 集 
Qlz,al,ae4 在 给 定 的 数据 集 上 的 多 样 性 . 

若 

万 4 (ER =InN4 (ay) * => Sey) 
那么 H4 (z1,---, 21) PRYEBRAL. BRAUER A 078 PRA OF (21,---, 21) 上 的 期 望 : 
H4 (1) = ElnN4 (z1,-+-, 4) ) 


称 作 指示 函数 集 Q(z, 0), € A 在 数量 为 ; A FEA_EASHS, 它 依赖 于 函数 集 Q(z, a), 
a € A, 概率 测度 一 级 观测 数目 ! 反映 了 给 定 指 示 函 数 集 在 数目 为 1 的 样本 上 的 期 
望 的 多 样 性 . 
3.2.1.3 LwRREHH 
设 4< Q(zal 和 Bae4 是 一 个 有 界 损 失 函 数 的 集合 , 用 这 个 函数 集 和 训练 
集 2 ……，,2, 可 以 构造 下 面 的 ! 维 向 量 集合 : 
q(a) = (Q(z1,a),---,Q(zi,a)), aEeA 


这 个 向 量 集合 处 在 ! 维 立方 体 中 , 并 且 在 C 度量 下 有 一 个 有 限 的 最 小 s- 网 格 . 
令 V=N4(ci2 2) ABE q(a),a € A 的 最 小 c- 网 格 的 元 素数 目 . 随机 对 
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Hl HA (e;21,---, 1) = In N4 (6; 21,---, 1) 称 作 函 数 集 4< Q(z,0) < Brae A FEF 
本 z1,---,2 上 的 随机 VC J. 随机 VC HRORAEB 4 (€;1) = EH4 (€; 21,---, 21) 称 
VE RRAIEE A < Q(z,a) < Brae 4 在 数量 为 ! 的 样本 上 的 VC HH, 这 里 的 期 望 是 乘 
积 测度 F (21,--+, 21) 进行 的 . 

对 于 指示 函数 集 , s < 1 的 最 小 & 网 格 不 依赖 于 oc, 且 是 单位 立方 体 的 定点 的 
直子 集 因此 , 对 于 < <1, 


有 和 全 区 (ee 
H“ (e,21,:++, 2%) = H4 (a, ---, 2) 
HA (e,l) = H4 (I) 


3.214 一致 单 边 收 伊 的 充分 必要 条 件 


考虑 有 界 实 函 数 集 Q(z, al,a e 4 和 一 个 新 的 函数 集 Q*(z,0*),0* € A*, 这 个 
新 函数 集 满 足 一 定 的 可 测 性 条 件 : 对 于 Qlz,al,awe 4 中 的 任意 函数 , 在 Q*(z, ar),a* € 
A* 中 存在 一 个 函数 , 使 得 


Q(z,a) —-Q (0 六 区 0 
| Qa) -@' 0°) aF (2) <6 (3.6) 


对 完全 有 界 函 数 集 CQ(z,a),a € A, 经 验 均值 一 致 单 边 收敛 于 其 期 望 的 充分 必 
要 条 件 是 : 对 任意 正 6, 7 和 s, 存在 一 个 满足 (3.6) 式 的 函数 集 Q*(z,a*),a* € A* 
fe 1 个 样本 上 的 s RRL TRASH: 
EB (et) 

l 

有 界 函 数 集 Q(z, a), € 4 一 臻 单 边 收敛 的 充分 必要 条 件 是 存在 与 Q(z,a),a € 
A 非常 接近 的 另 一 和 函数 集 Q*(z,0°),0* e 4*， 对 这 个 新 函数 集 ， 条件 (3.7) 式 
成 立 . 

考虑 在 N4 (21,---, 1) 值 的 基础 上 构造 的 两 个 概念 

(1) 退火 的 VC Hy 


<n (3.7) 


lim 


A 
ET on 


(人 ) = mn EN“ (2, +++, 21) 


(2) 生长 函数 
G4 (J) =In sup Nn“ (z1,°*+, 21) 


TAPER SH BE MATTE AE FEM FEAT 1, 都 有 不 等 式 


H* ()) Ste O<G © 
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那么 等 式 
二 


lim 
1 一 co 


描述 了 ERM 原则 一 致 性 的 充分 条 件 . 
对 于 任何 ! > lo, 都 有 下 面 的 指数 界 成 立 : 


P{R(a)) — R(ao) > e} <e ©! 


其 中 c > 0 是 某 个 常数 . 那么 等 式 


描述 了 收敛 速度 快 的 充分 条 件 . 


等 式 A 
lim ee) = 


l—oo l 


描述 了 履行 ERM 原则 的 学 习 机 器 有 快 的 收敛 速度 的 充分 必要 条 件 . 
3.2.2 ”学 习 过 程 收 敛 速度 的 界 

学 习 过 程 收 和 敛 速度 的 界 的 一 系列 理论 是 经 验 风 险 和 实际 风险 之 间 关 系 的 重要 
结论 , 这 一 部 分 学 习 理 论 讨论 学 习 机 器 推广 性 的 非 渐进 界 , 并 讨论 如 何 找到 构造 性 
的 界 与 分 布 无 关 的 界 的 方法 “41, 

3.2.21 ARBRE BZARREH VC 维 

任何 生长 函数 或 者 满足 等 式 


G4 ()) =n? 
或 者 受 下 面 的 不 等 式 约束 : 
G* (aah (im +1) 
其 中 尹 是 一 个 整数 , (844 lah, 有 


G4 (h) =hIn2 
G4 (h+1) < (h+1)In2 


即 生长 函数 要 么 是 线性 的 , 要 么 以 一 个 对 数 函 数 为 上 界 . 


指示 函数 集 Q(z,0),0 € A 的 VC HE, 是 能 够 被 集合 中 的 函数 以 所 有 可 能 的 2” 
种 可 能 方式 分 成 两 类 大 向 量 o21,---, zn 的 最 大 数目 六 (也 就 是 能 够 被 这 个 函数 集 打 
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散 的 向 量 的 最 大 数目 ). 如 果 对 任意 的 w, 总 存在 一 个 ”个 向 量 的 集合 可 以 被 函数 
集 Q(z,a),ac ATM, 那么 函数 集 的 VC 维 就 是 无 穷 大 . 
设 4 和 Qlz,al 和 Bae4 是 一 个 以 常数 4 和 呈 为 界 的 实 函数 集合 (A 可 以 
是 -oo, B 可 以 是 co). 与 实 函数 集合 4 < Q(z,a) < Bac 4 一 起 考虑 其 指示 函 
数 集 
I (z,a, 8B) =0{Q(z,a)—B}, aedA, BE(A,B) (3.8) 


其 中 , 9(z) 是 阶 跃 函 数 


0 
ea) x OD. ¥2.< 
L £28 


实 函数 集合 4< Q(z,0) < Ba € A 的 VC 维 定义 为 相应 的 指示 函数 集 (3.8] 式 的 
VC 维 , 其 中 的 参数 we A,B € (A,B). 
3.2.2.2 ”构造 性 的 与 分 布 无 关 的 界 


构造 性 表达 式 网 
= ney 
te ; +1] in (7) 


(3.9) 
与 表达 式 


B=2 


InN —Inn 
Mas see eal 
(3.10) 


有 下 面 的 构造 性 界 成 立 , 其 中 在 VC 维 有 限 的 情况 下 使 用 (3.9) 式 的 2, 而 在 集合 
中 函数 数目 有 限 的 情况 下 使 用 (3.10) 式 的 五 . 

1) 完全 有 界 函 数 集 

设 4 和 Qlz,al 乏 Bae4 是 完全 有 界 函 数 的 集合 , ABA: 

(A) 下 面 的 不 等 式 以 至 少 1-7 的 概率 同时 对 Q(z,a),awe 4 所 有 函数 (包括 是 
经 验 风险 最 小 的 函数 ) 成 立 : 


R(a) < Remp (a) + oe 
R(a) > Romp (a) - BA ye 


(B) 下 面 的 不 等 式 以 至 少 1-27 的 概率 使 经 验 风 险 最 小 的 函数 Q(z, 07) 成 立 
一 mn7  (B-A) 
ety Ble) (8 aa 5 VE 


2) SEPA FER ARE 
WO0<Q(z,a)< Bac A CREAR MANERA, 那么 : 
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(A) 下 面 的 不 等 式 以 至 少 1-7 的 概率 同时 对 Q(z,a) < Bac A 的 所 有 函数 
(包括 是 经 验 风 险 最 小 的 函数 ) 成 立 
R(0) < Rana) + BE (14 y+ Mage) gay 


(B) 下 面 的 不 等 式 以 至 少 1-27 的 概率 使 经 验 风险 最 小 的 函数 Q (z, ax) 成 立 


R(a)-Inf R(a)<B ew ee (+ 1+ ‘| 
acA 2l 2 

3) 完全 非 负 函 数 集 

设 Q(z,a) > 0,ae4 是 完全 有 界 非 负 函 数 的 集合 , MA: 

(A) 下 面 的 不 等 式 以 至 少 1-7 的 概率 同时 对 满足 : 


(| Q? (z,a) dF 加 
Teeaag oT 


的 所 有 函数 成 立 
Remp (a) 


(i =F) VB). (3.12) 


其 中 


(B) 下 面 的 不 等 式 以 至 少 1--27 的 概率 使 经 验 风险 最 小 的 函数 Q (z, a1) 成 立 


人 0 
2 
这 些 关 于 学 习 机 器 一 致 收敛 和 收敛 速 度 的 一 系列 条 件 有 重要 的 理论 意义 , 但 在 
实践 中 一 般 无 法 直接 应 用 . 
3.2.3 ”控制 学 习 过 程 推广 能 力 的 理论 


所 谓 推广 能 力 是 指 超 平面 对 不 属于 训练 集 的 新 数据 正确 分 类 的 能 力 ， 从 数学 
角度 来 说 推广 能 力 能 通过 风险 函数 来 表达 . 风险 函数 就 是 学 习 机 的 输出 值 与 实际 值 
的 期 望 差异 . 因为 风险 不 能 直接 计算 出 , 但 它 可 以 有 风险 的 上 界 佑 计 . 训练 集 的 经 验 
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风险 可 以 直接 计算 出 . 容量 是 描述 向 量 机 对 于 任何 训练 集 无 错误 的 学 习 能 力 的 量 . 
一 个 向 量 机 的 容量 过 大 会 导致 过 度 适 应 , 过 小 又 会 发 生 分 类 错误 [45.441, 

推广 能 力 理论 依据 原理 不 同 有 很 多 名 字 , 统计 学 中 称 之 为 一 致 收敛 速率 研究 ， 
计算 机 科学 中 称 之 为 正确 近似 概率 . 模型 中 的 一 个 重要 假设 就 是 训练 和 检测 中 的 数 
据 都 是 依据 未 知 但 固定 的 分 布 独立 同 分 布 产 生 . 假设 这 是 一 种 输入 输出 对 (z,y) € 
X € (-1,41) 的 分 布 , 那么 输出 值 y 决定 于 定义 在 输入 域 的 目标 函数 刀 即 y =t(z). 
模型 的 适应 过 程 中 考虑 到 了 样本 的 动态 性 、 非 完全 独立 分 布 , 但 模型 忽视 了 学 习 机 
可 能 影响 样本 的 选择 . 为 了 简便 起 见 把 样本 都 视 作 独立 同 分 布 的 情况 . 

经 验 风 险 最 小 化 原则 是 从 处 理 大 样本 数 问题 出 发 的 , 这 一 原则 的 合理 性 可 以 通 
过 考虑 不 等 式 (3.11) 式 和 (3.12) 式 来 证 明 . 当 I/h BAM, EF RB), 因此 不 等 
式 (3.11) 右边 的 第 二 项 就 变 得 较 小 , 于 是 实际 风险 就 接近 经 验 风 险 的 取 值 . 在 这 种 
情况 下 , 较 小 的 经 验 风 险 值 就 能 保证 期 望 风 险 的 值 也 较 小 . 如 果 U/h 较 小 , 那么 一 
个 小 的 Remp (a1) 并 不 能 保证 小 的 实际 风险 值 . 在 这 种 情况 下 , 要 最 小 化 实际 风险 
R(a), 必须 对 不 等 式 (3.11) 右边 两 项 同时 最 小 化 , 但 是 需要 注意 , 不 等 式 (3.11) A 
边 的 第 一 项 取决 于 函数 集中 的 一 个 特定 的 函数 ， 而 第 二 项 则 取决 于 整个 函数 集 的 
VC 维 . 因此 要 对 风险 的 界 (3.11) 式 右边 两 项 同时 最 小 化 , 必须 使 VC 维 成 为 一 个 
可 以 控制 的 变量 . 结构 风险 最 小 化 归纳 原则 旨 在 针对 经 验 风 险 和 置信 范围 这 两 项 
最 小 化 风险 泛 函 . 

对 于 Remp(a)=0 的 训练 机 f(x, a*) 考虑 分 类 器 


RE 


Heo) =4 “Fin dei gee 


在 分 类 数据 集 X 中 的 样本 时 f’ 与 f RO PERITHIRL, 但 在 分 类 不 属于 数据 集 X 中 的 
新 样本 时 f' 与 太 的 作用 相反 . 因此 学 习 机 中 函数 的 选择 似乎 受到 了 限制 . 

同样 的 问题 称 作 过 适应 , 如 果 一 个 学 习 机 是 一 个 高 度 灵 活 函数 的 富 集 , 称 作 有 
高 容量 . 如 果 机 器 容量 很 高 , 能 无 错误 的 学 习 任何 训练 数据 集 , 这 样 它 就 有 可 能 在 
面 对 新 的 输入 数据 时 不 能 很 好 的 工作 . 这 些 机 器 过 于 适合 训练 数据 , 以 至 于 不 能 识 
别 训练 数据 普遍 的 特性 . 因此 最 后 的 推广 运算 是 在 描述 训练 集 的 精确 性 和 机 器 的 
容量 中 寻找 一 种 平衡 . 

通过 限制 风险 可 以 把 这 个 想法 公式 化 : 如 果 a 的 概率 是 1-m, 那么 

4 


Sg Mace ; (: (1 +n =) fo, *) +7 (3.13) 


XB hd VC 维 , 它 是 容量 的 度量 单位 . 不 等 式 的 左边 一 般 无 法 计算 , 但 是 如 果 VC 
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维 已 知 , 风险 的 上 界 可 以 很 容易 地 由 不 等 式 右边 计算 得 到 . ino 是 单调 增加 的 , 它 
被 称 作 VC 置信 . 

以 上 公式 表明 风险 不 仅 依赖 函数 集 (学 习 机 ) 的 选择 , 还 依赖 学 习 算法 对 函数 
的 选择 . 如 果 使 用 低 VC 维 的 学 习 机 对 数据 集 作 较 好 的 分 类 , 那么 不 等 式 右边 会 较 
小 . 这 是 结构 风险 最 小 化 的 基本 思想 

从 以 上 定义 可 以 看 出 结构 风险 最 小 化 归纳 原理 是 通过 选择 合适 的 子 集 9, 来 
限制 实际 风险 上 界 以 最 小 化 经 验 风险 . 为 了 最 小 化 经 验 风险 , 可 以 针对 每 一 个 子 集 
训练 一 个 学 习 机 , 由 这 个 学 习 机 序列 可 以 得 到 经 验 风 险 的 和 VC 置信 最 小 的 一 个 学 
习 机 

通过 选择 从 可 以 保持 置信 间隔 不 变 来 最 小 化 的 经 验 风险 , 这 种 方法 首先 用 于 
神经 网 络 中 来 选择 合适 的 结构 和 消除 分 类 错误 . 结构 决定 了 神经 网 络 的 适应 性 也 同 


样 决定 了 VC 维 . 因此 结构 体系 一 旦 确定 , 那么 ,> ¢ ( ner: =) ite *) + 工 也 
n l 


就 固定 了 . 另 一 种 方法 是 保持 经 验 风 险 固 定 ( 即 等 于 0) 最 小 化 置信 间隔 
RAR Q(z,a),a es 4 的 集合 S 有 一 定 的 结构 , 这 一 结构 是 有 一 系列 嵌 套 的 函 
数 子 集 S = {Q(z,a),ae A} 组 成 的 , 它们 满足 


S12 Gp oe Bee - 


其 中 , 结构 的 元 素 满足 下 面 的 两 个 性 质 : 
(1) 每 个 函数 集 S, 的 VC 维 h, 是 有 限 的 , 因此 


(2) 结构 的 任何 元 素 Sp 或 者 包含 一 个 完全 有 界 的 函数 集 0< O(2,0) 《Bac 
Ag, 或 者 包含 对 一 定 的 (p, 7.) 对 满足 下 列 不 等 式 的 函数 集 : 


1/p 
“1 1 Q? (2,0) dF(z) 
lee) ai a 


这 个 结构 成 为 允许 结构 . 对 于 某 个 训练 集 , 结构 风险 最 小 化 归纳 原则 上 选择 使 风险 
函数 
R(a)= | 5ly- teajldaPtz 


达到 最 小 的 子 集 Sy. 
在 结构 风险 最 小 化 原则 下 , 一 个 分 类 器 的 设计 过 程 包括 以 下 两 个 方面 的 任务 : 
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(1) 选择 一 个 适当 的 函数 子 集 (使 之 对 问题 来 说 有 最 优 的 分 类 能 力 ); 

(2) 从 这 个 子 集中 选择 一 个 判别 函数 (使 之 经 验 风险 最 小 ) 
第 一 步 相当 于 模型 选择 , 第 二 步 相当 于 在 确定 了 函数 形式 后 的 参数 估计 . 

对 于 一 个 给 定 的 观测 集 2:.,.…,zn， 结构 风险 最 小 化 原则 在 使 保证 风险 最 小 化 
的 子 集 5x 中 选择 使 经 验 风 险 最 小 化 的 函数 Q (2, af). 

结构 风险 最 小 化 归纳 原则 定义 了 对 给 定数 据 逼 近 的 精度 和 逼近 函数 复杂 性 之 
间 的 一 种 折 中 . 随 着 子 集 序号 ”的 增加 , 经 验 风险 的 最 小 值 减 小 , 但 决定 置信 范围 
的 项 却 增加 结构 风险 最 小 化 归纳 原则 通过 选择 子 集 5x 将 这 两 者 都 考虑 在 内 , 子 
集 Sy 的 选择 是 使 得 在 这 个 子 集中 , 最 小 化 经 验 风 险 会 得 到 实际 风险 的 最 好 的 界 

支持 向 量 机 通过 以 下 步骤 实现 结构 风险 最 小 化 归纳 原则 9), 

(1) 用 非 线性 变换 把 输入 向 量 映射 到 一 个 高 维特 征 空间 中 

(2) 在 这 个 空间 中 , 在 线性 决策 规则 集合 上 按照 正规 超 平面 权 值 的 模 构造 了 -- 
个 结构 ; 

(3) 选择 结构 中 最 好 的 元 素 以 及 这 个 元 素 中 最 好 的 函数 ,以 达到 最 小 化 错误 率 
的 界 的 目标 . 
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这 一 章 阐明 了 怎么 构建 支持 向 量 机 , 以 及 构造 支持 向 量 机 的 过 程 中 需要 用 到 的 
相关 二 次 规划 优化 方法 也 略 加 介绍 . 构造 学 习 算 法 的 理论 是 统计 学 习 理论 的 重要 
组 成 部 分 , 是 蛋白 质 结 构 预测 的 基础 . 
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支持 向 量 机 理论 中 , 由 于 只 涉及 损失 函数 是 凸 二 次 函数 而 约束 条 件 是 线性 函数 
的 情况 , 所 以 为 了 节约 篇 幅 这 里 只 对 这 种 情况 进行 讨论 . 解决 目标 函数 是 凸 二 次 函 
数 而 约束 条 件 是 线性 函数 问题 的 方法 称 作 凸 二 次 规划 , 通常 求解 二 次 规划 问题 使 用 
拉 格 朗 日 理论 . 此 外 对 偶 理 论 在 构建 支持 向 量 机 的 过 程 中 也 扮演 重要 角色 . 拉 格 朗 
日 理论 最 初 只 适用 于 目标 函数 是 等 式 的 理论 , 后 来 由 Kuhn 和 Tucker 发 展 到 了 可 以 
适用 于 目标 函数 是 不 等 式 的 理论 . 约束 的 推广 理论 实际 上 就 是 Karush-Kuhn-Tucker 
(KKT) 理论 [701. 


4.1.1 问题 公式 化 


对 于 给 定 的 函数 f, 有 .9 三 1 UR AG =1,---,m EQCR LAE 
x 
minimize f(w), wen 
subject to gw) <0,) 7=1,--ok 
hy (w) =0, “jf ='1,--*,m 


其 中 f (w) 称 作 目 标 函 数 , 9; 称 作 不 等 式 约 束 , hi 称 作 等 式 约束 . 为 了 简便 起 见 , 这 
里 用 g(w) <OWR h(w) = 0 表示 它们 对 所 有 的 ;成立 . 广 的 优化 值 称 作 优化 问 
题 的 值 . 

F = {w € 2: g(w) < 0,h(w) = 0} 称 作 可 行 域 , 矿 在 这 个 区 域 中 有 定义 , 并 
且 约束 条 件 得 到 满足 . 如 果 没 有 wc FE f(w) < jw*) FE, 那么 优化 问题 的 一 
MR w* e F 称 作 全 域 最 小 化 解 . 如 果 存 在 © > 0, 当 ||w—w*|| < <s 时 , 对 于 所 有 
w CF #@ f(w) > f (w*) BOL, 那么 点 w* 称 作 优化 问题 的 一 个 局 域 最 小 化 解 . 

如 果 目 标 函 数 和 约束 条 件 都 是 线性 的 , 那么 这 个 优化 问题 称 作 线性 规划 . 如 果 
目标 函数 是 二 次 的 而 约束 条 件 是 线性 的 , 那么 这 个 优化 问题 称 作 二 次 规划 . 
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如 果 g;(w) = 0, 那么 约束 条 件 9i 称 作 在 点 激活 . 因此 如 果 点 w 在 可 行 域 
的 边界 上 , 任何 约束 条 件 都 在 点 w 激活 . 从 这 种 角度 来 看 等 式 约 束 总 是 激活 的 . 

凸 集 定义 : 如 果 Vw,u e 2, 并 且 对 于 任 一 ge (0,1), 点 (po +(1-gve， 
那么 QC R” 称 作 凸 集 . 如 果 Vu,u e 2, 并 且 对 于 任 一 ge (0,1), A f(Ow + (1- 
bu 和 oflw)+( -0 f (u) BOIL, 那么 实 值 函 数 f (w) EDR. 如 果 小 于 号 成 立 ， 
该 函数 成 为 严格 凸 集 . 

定义 在 凸 集 上 的 凸 函 数 的 最 小 化 问题 称 作 凸 规划 问题 . 它 的 很 好 的 一 个 特性 
Fe, WOR f (w) 是 严格 凸 集 , 那么 对 于 一 个 凸 问题 任何 一 个 局 域 解 都 是 全 域 解 , 并 且 
这 个 解 是 唯一 的 . 


4.1.2” 拉 格 朗 日 理论 
拉 格 朗 日 函数 定义 为 目标 函数 加 上 等 式 约 束 的 线性 组 合 六 (w)=0,i=1,---,m 


L(w,a) = f(w) + Dd aihi(w) 


其 中 a; 称 作 拉 格 朗 日 乘 子 . 

拉 格 朗 日 定理 是 二 次 规划 寻 优 的 重要 依据 [71. 对 于 一 个 带 有 目标 函数 (w) 
和 等 式 约束 hi(w) =0,i=1,---,m 的 优化 问题 , /和 访 eC, MA wt C2 BRA 
题 的 解 的 必要 条 件 是 


0 * 下 Ce 
Fp ,a)=0 


和 


O 和 NE 
5 a 


WAR L(w*,a*) 是 w 的 凸 函数 , 这 些 条件 也 是 充分 条 件 . 

这 个 条 件 给 出 了 一 个 +mm 个 方程 的 线性 方程 组 , 其 中 最 后 mm 个 是 等 式 约束 . 
求 出 这 个 方程 组 的 解 就 得 到 原 问题 的 解 . 因为 约束 条 件 的 最 优点 的 值 都 是 零 , 所 以 
拉 格 衣 日 函数 的 值 等 于 目标 函数 的 值 


L(w*, a") = f ) 
现在 把 不 等 式 条 件 也 包含 在 了 里 面 得 到 拉 格 朗 日 推广 函数 . 
对 于 一 般 优 化 问题 


minimize f (w), wen (4.1) 
subject to OOO nd Lee ak 
hj (w) = 
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拉 格 朗 日 推广 函数 为 


ie m 
L (w, a, 8) = f (w) + ¥> aigi(w) + D> Bihj(w) 
i, 4=1 
=f (w) +a‘g(w) + Ph(w). 


拉 格 朗 日 对 偶 问 题 描述 如 下 : 已 知 初始 问题 (4.1) 定义 对 偶 问 题 : 


minimize 6 (a, B) = inf L(w, a, 8) 


subject to a>0O 


目标 函数 的 最 大 值 称 作 优 化 问题 的 值 . 

弱 对 偶 定 理 : 对 于 初始 优化 问题 的 可 行 解 w 和 对 偶 优 化 问题 的 可 行 解 (a, 2), 
不 等 式 

f (w) > 4 (a, B) 

成 立 . 
从 上 面 的 定理 知道 , 初始 问题 的 值 是 对 偶 问 题 值 的 上 界 和 . 初始 问题 的 值 和 对 
偶 问 题 值 之 间 的 差距 称 作 对 偶 沟 . 如 果 f (w*) = 0(a, 69 同时 约束 条 件 成 立 , AB 
Z w* 和 (a*,6*) 分 别 是 初始 优化 问题 的 解 和 对 偶 优 化 问题 的 解 . 因为 值 相等 , 上 
面 定理 的 证 明 中 的 不 等 式 转化 成 等 式 . 其 中 对 于 任意 有 aigi (w) = 0. 所 以 比较 
初始 问题 的 值 与 对 偶 问 题 的 值 可 以 检验 最 优 性 . 如 果 对 偶 沟 为 零 , 就 得 到 了 最 优 解 . 

对 于 w* € 2 和 a* >0, 满足 

天 攻 用 a", Fe L(w,a° 67) 

点 w*,a*, B* 为 鞍点 . 对 于 w* © 2 和 a* > 0, 鞍点 相对 于 w 是 最 小 值 , 相对 于 
(a, 8) 是 最 大 值 . 如 果 点 ww*, a*, 0* 为 初始 拉 格 朗 日 函数 的 鞍点 , 那么 它 是 初始 问题 
和 对 偶 问 题 的 最 优 解 , 并 且 没 有 对 偶 沟 : f (w*) = g(a* ,6*). 

强 对 偶 定 理 : 已 知 初始 最 优化 问题 (4.1), 如 果 定 义 域 是 凸 集 并 且 约 束 条 件 9 
和 h; 是 仿 射 函 数 , 那么 对 偶 沟 为 零 . 和 
4.1.3 KKT 理论 


KKT 定理 : 已 知 初始 最 优化 问题 (4.1), 并 且 f, eC 是 凸 集 , ARAE g: Ah; 
是 仿 射 函数 , 那么 w* 是 最 优 值 的 必要 充分 条 件 是 存在 a*、68* 有 


0 Kia HAPPEN ee, 
ap ew" B*) = 0 


sgh (w*,a*, 8" =30 
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解 对 偶 问题 一 般 要 比 解 初 始 问题 容易 . 对 偶 函 数 不 依赖 初始 变量 . 对 偶 变量 是 
问题 的 基本 未 知 数 , 所 以 对 偶 方法 为 构建 优化 任务 提供 了 新 的 视角 . 

由 初始 问题 转化 为 对 偶 问题 一 般 分 两 步 : 四 把 初始 拉 格 朗 日 函数 关于 初始 变 
量 的 偏 微分 设 为 零 ; @ 运算 出 结果 后 把 它们 代 回 初始 拉 格 朗 日 函数 ， 这 种 替换 依 
赖 初始 变量 , 即 0 (a, 6) = inf L(w, a, 8). 

这 种 方法 是 一 种 标准 的 支持 向 量 机 技术 , 它 提供 了 最 优化 理论 的 算法 . 对 偶 描 
述 可 以 工作 在 高 维 空间 ,而 不 会 发 生 维 数 灾难 . 利用 KKT 条 件 可 以 有 效 地 减少 计 
算 中 的 数据 量 . 只 有 激活 的 约束 条 件 才 有 非 零 的 对 偶 变 量 , 所 以 变量 数 会 大 大 小 于 
初始 训练 集 的 变量 数 9 . 


4.2 SRSA 


4.2.1 支持 向 量 机 基本 原理 简介 


支持 向 量 机 是 一 种 利用 高 维特 征 空间 线性 函数 的 假设 空间 的 学 习 系 统 . SFA 
量 机 通过 优化 理论 得 到 的 学 习 算法 训练 , 优化 的 目标 是 从 统计 学 习 理 论 获 得 的 学 习 
偏差 . 简单 地 说 , 支持 向 量 机 就 是 在 输入 空间 求 值 的 高 维 最 大 分 类 间隔 超 平面 . 如 
果 把 一 个 有 代表 性 的 样本 集 (线性 不 可 分 , 包含 多 种 样本 点 ) 进行 分 类 , 要 做 的 第 
一 件 事 是 要 找到 一 个 合适 的 高 维特 征 空间 , 通过 核 函 数 把 原样 本 集 映 射 到 这 个 高 维 
空间 中 , 使 得 原样 本 集 线 性 可 分 (能 够 被 超 平面 无 错误 的 分 开 ). 然后 通过 最 优化 技 
术 计算 得 出 最 优 分 类 超 平 面 来 最 大 分 离 这 些 样本 点 . 那么 样本 点 就 可 以 在 原 低 维 
空间 中 非 线 性 地 分 类 . 因此 , 支持 向 量 分 类 的 最 终 目 的 就 是 设计 一 种 高 维 空间 中 计 
算 快捷 的 方法 来 得 到 最 优 分 类 超 平面 , 即 支持 向 量 机 6. 

支持 向 量 机 是 从 线性 可 分 情况 下 的 最 优 分 类 超 平面 发 展 而 来 的 , 它 由 离 它 最 近 
的 少数 样本 点 决定 , 而 与 其 他 样本 无 关 . 这 些 与 最 优 分 类 面 最 近 的 少数 样本 点 就 是 
支持 向 量 . 这 样 在 运算 时 就 可 以 把 那些 无 关 的 样本 点 剔除 , 只 保留 那些 支持 向 量 ， 
以 最 大 限度 地 减 小 运算 成 本 [5. 支持 向 量 机 基本 思想 可 用 图 4-1 的 两 维 情况 说 明 . 
图 41 中 , 圆 点 和 方 点 代表 两 类 样本 点 , 最 优 分 类 面 为 最 优 分 类 线 . 边界 Hi. Ho 是 
平行 于 最 优 分 类 线 的 直线 , 它们 分 别 由 各 类 样本 点 中 离 最 优 分 类 线 最 近 的 样本 点 决 
定 . 离 最 优 分 类 面 最 近 的 样本 点 与 最 优 分 类 面 之 间 的 距离 称 作 分 类 间隔 . 
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Margin=1/||w]| 


Hy 
OSH 


图 41 支持 向 量 机 的 基本 思想 (YA: Florian Markowetz, 2002) 
如 果 向 量 集合 被 没有 错误 地 分 开 , 并 且 离 超 平面 最 近 的 向 量 与 超 平面 的 距离 (Margin) 是 最 大 的 , 则 说 这 个 
向 量 集合 被 这 个 最 优 超 平面 分 开 


一 个 分 类 超 平 面 是 最 优 分 类 超 平 面 要 达到 两 点 要 求 : O 能 将 两 类 正确 分 开 ( 训 
练 错误 率 为 0); @ 使 分 类 间隔 最 大 171, 
4.2.2 ”线性 分 类 

假定 训练 数据 

(21, y1) ,-**, (21,91), 2-€ R”, VSetrs 75 
可 以 被 一 个 超 平 面 
(w,z)+b=0 

分 开 . 如 果 这 个 向 量 集合 被 超 平面 没有 错误 地 分 开 , 并 且 离 超 平面 最 近 的 向 量 与 超 


平面 之 闻 的 距离 是 最 大 的 , 则 这 个 向 量 集合 被 这 个 最 优 超 平面 分 开 ks,79 
为 了 使 用 简单 的 线性 分 类 超 平面 构造 支持 向 量 机 , 首先 考虑 超 平面 族 


(w,z)+b=0, weER”", bER 


相应 的 决策 函数 是 
f (x) = sign ((w, x) + b) 
决策 函数 是 符号 函数 
f(z)=1, (w,z)+b20 
f(z)=—-1, (w,rz)+b<0 
它 的 值 决定 样本 点 属于 哪 一 个 样本 点 类 .从 样本 点 学 习 是 通过 考察 属于 某 一 类 的 
样本 点 来 了 解 这 个 类 的 属性 . 
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既然 有 很 多 种 方法 可 以 对 两 类 样本 进行 分 类 , 那么 就 需要 建立 一 个 标准 来 评价 
各 种 分 类 的 优 劣 . 一 般 来 说 符合 下 面条 件 的 最 优 的 分 离 方法 最 优 : 


max min{||z — z;||:2 € R”, (w,b)+b=0, 1=1,---, 1} 
Ww, 


如 果 存 在 一 个 单位 向 量 w (lw|l| = 1) 和 一 个 常量 b, 有 方程 


(wzi) 二 >0， 若 y=tl (4.2) 
(wzi) 十 <0， &F y=-l (4.3) 
ARIZ, 那么 样本 集 A= {(r1, y1), rt ee (x1, yt), i 三 R”, yi{+1, —1}} 被 超 平面 (WwW), Z) 十 


b=0,0,€R", bE RAD. 这 个 由 风 和 ,定义 的 超 平面 称 作 分 类 超 平 面 53.. 
(4.2) 式 和 (4.3) 式 可 以 采用 一 种 紧凑 的 形式 : 


二 (4.4) 


对 于 由 (u,z)+b=-0 定义 的 分 类 超 平 面 H. 
(1) H 2c; 的 距离 为 样本 点 zi 的 分 类 间隔 


71 (w, b) = yi ((w, i) + 8) 


(2) 向 量 集 S = {21,---, tn} 的 分 类 间隔 y,(w,b) A H 2B) S 中 每 一 个 向 量 的 
距离 的 最 小 值 
y;(w,b) = miny;(w,b), 2€S 
如 果 单 位 向 量 w* 和 常量 bY 确定 了 样本 集 S = {21,---, cn} 到 分 类 超 平面 A 
的 最 小 距离 , 并 且 满 足 (4.2) 式 和 (4.3) 式 , ABA (w*, 0*) 确定 的 超 平 面 称 作 最 优 
分 类 超 平面 , 即 样本 集 S 的 最 优 分 类 超 平面 定义 为 


(w*,b") = arg max yz (w, b) 
w,b 


这 个 超 平 面具 有 最 优 性 , 即 不 但 能 将 两 类 样本 集 正确 地 分 开 , 而 且 能 使 距离 它 
最 近 的 向 量 到 它 的 距离 最 大 . 最 优 超 平面 就 是 满足 (4.4) 式 并 且 使 得 Ys (w,b) 最 小 
的 超 平面 . 这 样 的 分 类 超 平 面 会 获得 最 佳 的 推广 能 力 4). 所 谓 推广 能 力 是 指 超 平 
面 对 不 属于 训练 集 的 新 数据 正确 分 类 的 能 力 . 最 优 分 类 超 平面 是 唯一 的 . 


4.2.2.1 构造 最 优 分 类 超 平面 
构造 最 优 分 类 超 平 面 就 是 找到 能 把 属于 两 个 不 同类 y € {-1,41} 的 样本 集 


(人 ,ZTC 
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DF, 并 且 系数 的 模 最 小 的 超 平 面 . 
最 优 分 类 超 平面 实际 就 是 最 优化 问题 


maximize Ys (w, b) (4.5) 
subject to ys(w,b) > 0 
||w||? =1 


的 解 . 它 不 是 规范 的 最 优化 问题 表达 形式 , 因为 约束 条 件 不 是 线性 的 , 从 代数 的 角 


度 来 看 它 难 于 求解 5). 下 面 把 它 转 化 成 规范 的 形式 . 因为 w* = Tal H 


(wo, Zi ) +b 1 


Ja Two? 
_ {wo 05) +6 > : Viel 
|| wo ~ |woll 二 
得 到 
仿 中 -全 oa 
loool laool /lpool 
MAA +. (w*) = 一 一 Teo 一 所 以 分 类 间 隅 的 ys (w*) 最 大 值 是 wo|| 的 最 小 值 . 
此 原 最 优化 问题 就 可 以 转化 成 规范 形式 
minimize 5 Staal? (4.6) 
subject to (w,o;)+b>1, 4 y=+4l1 (4.7) 
(w,zi)+b<-1, BF y=-1 (4.8) 


因此 只 要 求 出 (4.6) 式 的 解 , 就 可 以 得 到 最 优 分 类 超 平 面 . 首先 为 了 计算 方便 
把 (4.7) 式 和 (4.8) 式 合 并 为 等 价 形式 


9 ( (un ez) 6) = 0; = Ty - (4.9) 
该 优化 问题 是 一 个 带 线性 限制 条 件 的 二 次 优化 问题 , 拉 格 朗 日 方法 可 以 用 来 对 
以 上 优化 问题 求解 , 即 找到 拉 格 朗 日 函数 


” l 
Lp (w, 2) = 5 lel? — Sax [ys ( (00,24) +8) — (4.10) 
——" 


的 较 点 ，Z 是 初始 条 件 下 的 拉 格 朗 日 函数 . 即 , 需要 用 拉 格 朗 日 函数 求 关于 w, 0 的 
最 小 值 和 关于 a, > 0 的 最 大 值 , 其 中 a > 0,4 = 1,---, 1 是 拉 格 朗 日 乘 数 ra, 这 里 
的 目标 函数 使 用 5 |||? 而 不 是 |u|) 主要 是 为 了 避免 开 方 运算 , 5 llol2 lol) 指 
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数 2 称 作 范 数 . 既然 鞍点 是 一 个 稳定 点 , 那么 它 应 该 满足 KKT 条 件 , 即 在 这 个 点 
上 的 Lp (w,b,a) IF w Al b 的 偏 微分 是 0, 即 有 


OL,(w,b,a) _ OL,(w, b, a) 
Ow =e Ob 


= 0 
通过 运算 得 到 
l l 
w= Slaiyici MS? ay: = 0 (4.11) 
i=1 —" 
把 (4.11) 式 代 回 到 (4.10) 式 中 得 到 Wolfe 对 偶 条 件 优化 问题 [7 


1 1 1 
1 . 1 
Lp(w,b,a) = 5 lo 上 一 > a [ys ((w, i) + 6) — 1] = 为 jzT 可 Dd wsceg yyy (we, 25) 
i=1 i=1 1,j=1 
对 偶 问 题 可 以 用 公式 
I ie 
maximize Lp(a) = 2,975 Deceit, (a) (4.12) 


i,j=1 
subject to ae 0,0 Cele 


表示 . 那么 可 以 计算 得 


这 里 把 原 问题 转化 为 它 的 对 偶 问题 是 因为 : @ 对 偶 描述 可 以 把 最 优 分 类 面 在 非 线 
性 分 类 中 推广 ; @ 简化 参数 . 
A w* 定义 最 优 分 类 面 , 那么 函数 Ly (a) 的 最 大 值 


i 

水 1 * 1 * 

Lp(a") = 5 |lw ie 5a, % 
il 


7 一 1 
四 为 Yo- (Soa) , 所 以 最 优 分 类 面 的 分 类 间隔 Y (w*) 能 够 由 系数 ax 计 
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42.2.2 4#AS 
对 于 以 上 的 初始 问题 , KKT 条 件 可 以 写成 


ae 
Ow, 


O 

Me eee 

yi ((w,z;) +b) -1>0, i=1,---,1 
a; 2 0; Vi 


a; [ys ((w, zi) +6) -—1]=0, Vi (4.13) 


支持 向 量 机 问题 是 凸 集 问题 . 对 于 凸 集 问题 KKT 条 件 是 充 要 条 件 , 因此 解 支持 向 
量 机 问题 等 价 于 求 KKT 条 件 的 解 . (4.13) 式 称 作 KKT 补充 条 件 . 如 果 一 个 训练 
点 zi 满足 该 条 件 , 那么 相应 的 拉 格 朗 日 乘 子 等 于 零 , 并 且 zx; 位 于 A, MR He 上 


A, : (w,z;) +b=+41 
Ho: (w, xi) +b=-1 
这 两 个 超 平面 称 作 边界 超 平面 . 离 最 优 分 类 面 最 近 的 训练 点 就 在 这 两 个 超 平 


HL. 它们 确定 了 分 类 间隔 的 边界 . 这 些 满足 ai SOFA A, mh Hp 上 的 向 量 
称 作 支持 向 量 (SV). 一 个 样本 点 如 果 相 应 的 拉 格 朗 日 乘 数 ai; 满足 ai > 0 


Ly = Wy — > ayitn = 0, Tea CS 


l 
w= a GY; = 33 Qi (4.14) 
i=1 SV 


那么 这 个 样本 点 称 作 支持 向 量 (support vector). YER (4.14) 式 仅 说 明了 支持 
向 量 都 在 H, 或 Hp 上 , 它 并 没有 说 位 于 A, A. 上 的 点 都 是 支持 向 量 . 如 果 a; 
和 y; ((w, zi) +6) -1 MINAS, BARR RBA Ay BH. 上, EMAAR 
# [A]. 

超 平面 把 R, SRK (wzi) +b > 0 和 (w,2;) +b < 0 两 个 区 域 , 为 了 使 用 最 大 
边界 分 类 器 , 首先 要 确定 测试 模式 在 哪 边 , 并 且 指 定 相应 的 标签 . 因此 测试 点 z 的 
预测 集 : 

SV 
f (x) = sign ((w*, z) + b*) = sign (>: axyi(xe’ jx) + ) 


2 


常数 5 的 值 为 
b= = [(w*,2* (1) + (w*,2* (2))] 


其 中 z* (1) 表示 属于 第 一 类 的 点 , z* (2) 表示 属于 第 二 类 的 点 . 
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4.2.2.3 ”线性 非 分 离 数 据 集中 的 最 优 分 类 面 
有 很 多 的 实际 问题 不 能 用 以 上 的 算法 解决 , 一 般 说 来 噪声 数据 会 破坏 数据 的 可 
分 性 . 因为 目标 函数 (也 可 以 说 是 对 偶 拉 格 朗 日 函数 ) 过 大 , 分 类 间隔 最 大 化 问题 
就 会 找 不 到 可 行 解 . 
最 优 分 类 面 最 大 的 弊端 就 是 不 允许 出 现 分 类 错误 . 为 了 推广 最 大 分 类 间隔 超 平 
面 , 给 (4.7) 式 和 (4.8) 式 增 加 松弛 条 件 , 使 它 在 有 分 类 错误 时 也 可 以 应 用 , 但 是 每 
一 次 出 现 分 类 错误 都 要 进行 一 次 错误 分 类 罚 分 ( 即 增 加 一 个 原始 的 目标 函数 ). 
这 里 引入 一 个 正定 松弛 变量 和 ;= 1……,, 那么 限制 条 件 变 为 
(w,zi)+b>4+1-&, 4 y=tl 
tw, a) +b <= —1&;; 4 %=—1 
& 20, Wi 


上 面 的 优化 问题 的 限制 条 件 就 转化 为 
yi((w,2i)+b)-14+& 20, 一 了 (4.15) 
满足 (4.15) 式 的 最 小 松弛 变量 为 
€ = max(0,1 — y;((w, 4) + 6) 


它 表 示 一 个 点 偏离 边界 的 程度 (图 4-2): 
& 21 y((w,z;) +b) <0, 即 ， a; 错误 的 分 类 
0<& <low AREA, 但 是 位 于 边界 以 内 
& = 0 一 2zi 分 类 正确 , 而 且 位 于 边界 以 外 或 在 边界 上 
为 了 在 最 大 化 分 类 间隔 的 同时 最 小 化 分 类 错误 , 可 以 把 目标 函数 5 lo 转化 
l 
A 5 |||]? + 于 函数 , 此 时 最 初 的 优化 问题 转化 为 带 松弛 变量 的 优化 问题 


i=1 
ie. 1 2 
minimize 5 ||w|| nee (4.16) 
subject to u; (20,22) HO) —1L +e, 20, ¢=—1,:--,1 
& 20, #=1,+++,1 


错误 权重 是 C 由 设计 者 自行 定义 的 参数 , 它 表 示 错 误 罚 分 的 多 少 . 对 于 任何 
正 整数 大 优化 问题 是 一 个 凸 集 , 上 = 1 Ak = 2 时 都 二 次 规划 问题 , 这 里 的 大 是 范 
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数 . 这 种 方法 称 作 最 优 分 类 面 的 软 边 界 推广 , 相对 应 的 最 初 的 没有 错误 的 推广 称 作 
硬 边界 推广 [31. 


OSH 


图 42 松弛 变量 的 值 (RA: Florian Markowetz, 2002) 
(1) 错误 分 类 ; (2) 正确 分 类 , 但 样本 点 在 边界 以 内 ; (3) 正确 分 类 , 样本 点 在 边界 上 或 边界 外 


WH k=1 初始 问题 的 拉 格 朗 日 函数 为 
l l l 
Ly (w, b, €, a, 8) = 5 lwll? +O > & — > oe [ys ((w, 2) +0) -—1 4G) — SBE 
一 iil | | 


其 中 ai,， 6; 是 拉 格 朗 日 乘 子 , Ha: > 0, 5; > 0. 那么 拉 格 朗 日 函数 关于 wu, 上 和 
8 的 偏 微分 为 


天 
ie een 一 二 
OLy 
OE, = C—a;,—f, =0 
jin = 
Wg BL Yen 
把 计算 结果 代入 初始 问题 得 
l id 
maximize Lp(a) = ¥ a5 So aiajyiys (tae (4.17) 
i=1 ij 
subject to Va; <6, fe --7t 
l 
》 aiyi =0 
i=1 


把 (4.17) AAG (4.12) KAR, 发 现 它们 几乎 相同 . 唯一 的 不 同 之 处 就 是 拉 格 朗 
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ARF a; 受到 限制 , 所 以 对 于 软 边界 问题 C 是 ai 的 上 界 . AA B= (ai—C), 从 
初始 问题 得 到 的 KKT 补充 条 件 为 


ai [yi ((w, zi) +6) -1+&]=0, Wi (4.18) 
B; (a; = C) = 0, Vi 


从 KKT 补充 条 件 可 以 看 出 只 a; =C 才 有 可 能 出 现 非 零 的 松弛 变量 . 相应 


的 样本 点 zi 与 超 平面 的 距离 小 于 = 相对 应 0<ai < C 的 样本 点 位 于 超 平面 上 . 


同时 也 可 以 看 到 , 如 果 使 C 为 无 穷 大 , 那么 相应 的 软 边界 问题 转化 为 硬 边界 问题 . 
在 正 交 坐标 系 中 , 因为 向 量 a 位 于 边界 为 C 的 盒 内 部 , 所 以 拉 格 朗 日 乘 数 的 
上 界 成 为 盒 约 束 . 
= k=2 时 的 情况 , (4.15) 式 的 第 一 个 约束 条 件 在 €; <0 时 也 成 立 , 同时 目标 函 
数 的 值 减 小 . 因此 可 以 删 去 正 约束 条 件 i 优化 问题 仍然 有 最 优 解 . 初始 函数 的 拉 
格 朗 日 函数 为 


Ly (w, b, €, a, 8) = 5 wl? +5 She A ott (w, x;) +b) —1+ &] 


—r! 


在 上 式 中 , 分 别 对 w, € 和 8 求 偏 导数 


oe 三 人 也 一 ere = (4.19) 
i=1 

Fe = CE-a=0 (4.20) 

OLp _ 过 

“Ob. 一 六 Qi1iVUi = 0 (4.21) 


0 = pi Qi2iTi (4.22) 


把 (4.21) 式 、(4.22) 式 和 (4.23) 式 分 别 代 入 (4.17) 式 , 计算 得 


I l 
1 1 
-三 > 2 avaasveys(e a) — 36 (a, @) 
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使 用 方程 


l l 


l 
(QQ) 三 Soar = >a a,0;0i; = a O45 YiY5 Oi; 


i=1 i=1 1,j=1 


其 中 6;, BHR PARAS, 4i=jN, 6, =1; Si 47 N, 6,=0. 因此 解决 范 数 
为 2 的 软 边界 优化 问题 等 价 于 求 问题 


maximize Lp(a@ as Qi 一 二 32 4A; YiY; (Li, Lj) + a6 (4.24) 


subject to 3 ay; = 0 
o 20 
的 解 . 从 初始 问题 得 到 的 KKT 补充 条 件 为 
ai [yi ((w, ri) +b) -14+& 20], Vi (4.25) 


4.2.2.4 非 平衡 数据 集 的 非 线 性 分 类 


前 面 一 段 的 推理 建立 在 对 每 个 数据 集 的 昼 分 都 一 样 的 基础 上 , 对 于 非 平衡 数据 
集 则 可 以 对 每 个 数据 集 的 罚 分 有 所 不 同 : 较 小 的 数量 级 的 昼 分 高 些 , 较 大 的 数据 集 
罚 分 低 些 . 这 样 做 可 以 保护 小 数据 集中 的 点 , 以 免 它 们 被 当 作 大 数据 集 分 类 错误 的 
Fa. 基本 方法 是 对 于 正 负 两 个 数据 集 采 取 不 一 样 的 权重 C+ 和 C-, 这 样 重要 的 数据 
集会 有 一 个 大 的 乘 数 . 这 样 就 使 得 较 小 数据 集 的 决策 边界 比较 大 的 数据 集 的 决策 边 
界 大 . 那么 初始 拉 格 朗 日 函数 就 有 两 种 类 型 错误 的 损失 函数 : EL, = {i ys = +1} 
Al I_ = {ily = —1}, 那么 初始 最 优化 问题 就 是 


atom 1 2 x 
minimize 5 ||w||" + Ct » gF+C v3 外 (4.26) 
ieIt+ i€I— 
subject to y;((w,2;)+b)—-1+& 20, i=1,---,1 
& 20, i=1,--*,l 


对 于 大 = 1 初始 拉 格 朗 日 函数 变 为 


l l 
Ly (w,b,€,0,8) =5 lw? +0+ -co 8 


1EIt+ 1€I- 


Se ie (w, zi) + b) —1+&]- SA 


i—1 
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对 偶 拉 格 朗 日 函数 除了 约束 条 件 
O0<a;,<Ct, i=+1 
0<aj<C-, i=-l 
WF k = 2 初始 拉 格 朗 日 函数 变 为 
l l l 
Lp (w, b,€,0,8)=5 ||w||? +c be €?-C™ ee 单一 》 ai [yi ((w, Zi) + b) AL &] 
ieI+ ieI- i=1 
对 偶 公 式 为 
: 过 1 1 
Lp(a) = po S > aiayyiy; (ti, 25) — Tiert) Gy 9 zr Tier] Ga 0 
i=1 i,j ; 
其 中 1.) RRA 
4.2.2.5 ”线性 机 器 的 对 偶 
线性 学 习 机 对 偶 描 述 是 支持 向 量 机 中 一 个 很 重要 的 概念 ， 一 个 向 量 可 以 写成 
训练 点 的 线性 组 合 的 形式 w = >》 ,aiyizi, 其 中 X = {(zpgi) = ,人 是 已 经 


分 类 的 训练 集 ，w, 是 在 最 大 分 类 间隔 问题 中 引入 的 拉 格 朗 日 函数 的 解 , 称 作对 偶 变 
量 . 它们 是 基本 的 未 知 数 . 展开 w 得 到 拉 格 朗 日 函数 


l l 
Lp(a)=)>> a5 S a:0;yiy; (vi, 25) 
-一 7 
由 此 可 以 得 到 决策 函数 
l 
f (x) = sign ((w, x) + b) = sign (>: Qii (Zi)Z) + 


从 这 个 公式 中 可 以 看 到 训练 和 测试 点 没有 表现 出 独特 的 属性 . 在 训练 阶段 只 
需要 把 训练 点 输入 Gram FEM, 测试 阶段 新 点 伴随 训练 数据 以 内 积 的 形式 出 现 . 这 
个 性 质 可 以 使 最 优 分 类 超 平 面 的 概念 在 非 线性 分 类 器 中 泛 化 . 


4.2.3 JERE 


因为 样本 点 有 严格 的 限制 , 所 以 线性 分 类 问题 可 以 通过 规范 的 最 优化 技术 求 
解 . 非 线性 分 类 问题 的 求解 需要 技巧 性 更 强 些 . 非 线 性 分 类 问题 求解 的 一 般 思 路 是 
把 输入 数据 映射 到 高 维 空间 , 然后 再 进行 线性 分 类 , 这 样 就 会 使 输入 空间 数据 非 线 
性 分 类 . 把 输入 数据 映射 到 高 维 空间 要 通过 一 种 方法 称 作 核 技术 . 创建 非 线性 机 器 
需要 两 个 步骤 : 首先 是 利用 非 线性 映射 把 数据 传递 到 特征 空间 , 然后 是 用 线性 机 器 
在 特征 空间 中 对 这 些 数据 分 类 . 
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4.2.3.1 特征 映射 


把 训练 样本 映射 到 希 尔 伯 特 空间 五 (可 能 是 无 限 维 的 ) 可 以 把 训练 点 进行 转换 . 
一 般 来 说 , 希 尔 伯 特 空间 H 比较 样本 所 在 的 空间 CD 具有 很 高 的 维 数 . 在 训练 之 前 
把 每 一 个 训练 点 作 映 射 下 : 工 一 克 , 那么 优化 分 类 超 平 面 在 互 中 构建 . 把 O(c) 的 
第 ;个 元 素 称 为 在 映射 © PAU i 个 特征 , A 称 为 特征 空间 . 选择 数据 最 适合 描 
述 的 行为 称 为 特征 选择 . 

最 优化 问题 的 解 是 一 个 向 量 w e A, 它 能 够 写成 训练 点 的 线性 组 合 . 从 学 习 
任务 的 对 偶 公 式 得 到 算法 仅仅 依赖 于 训练 样本 与 测试 点 的 内 积 . 所 以 格 兰 姆 矩阵 
G=(5(zil,5(zj)) 与 向 量 (56(zi),5(z)) 承担 学 习 的 任务 , 其 中 c 是 新 的 测试 点 . 

在 特征 空间 的 决策 函数 为 


l 
f (x) = sign (>: ays (P (24, ® (x))) + ) 


假设 在 输入 空间 有 一 个 非 线 性 分 离 的 数据 集 , 一 般 可 以 看 到 使 用 一 个 到 高 维 空 
闻 的 映射 能 使 它 特征 线性 分 离 . 所 以 使 用 © 可 以 使 分 类 问题 更 加 适合 最 大 分 类 间 
隔 方法 . 

4.2.3.2” 核 函数 


核 这 个 名 字 来 自 整 算 子 理论 . 因为 在 一 个 方程 中 没有 出 现 特 征 向 量 , 用 来 估计 
内 积 函数 的 内 积 计算 的 运算 数量 就 是 不 必要 的 .可 以 利用 核 来 把 数据 映射 到 特征 
空间 , 并 且 在 这 个 空间 训练 线性 机 器 . 能 够 利用 的 训练 样本 的 唯一 信息 是 它们 在 特 
征 空间 的 Gram 矩阵 . 这 个 矩阵 也 称 为 核 矩 阵 , 用 天 来 表示 . 这 种 方法 的 关键 是 找 
到 一 个 能 够 进行 有 效 佑 计 的 核 函 数 ， 线 性 学 习 机 的 一 个 重要 特性 是 它 能 用 对 偶 的 
形式 来 表示 . 这 就 意味 着 假设 可 以 表示 成 训练 点 的 线性 组 合 , 所 以 决策 函数 可 以 仅 
仅 利 用 检测 点 的 内 积 和 训练 点 来 估计 


l 
f(z) = Dd yil P(xi) - G(x;)) +b 


如 果 有 办 法 像 计 算 原 输入 点 的 一 个 函数 一 样 在 特征 空间 直接 计算 内 积 (O(a) - 
D(z), 那么 就 有 可 能 利用 两 个 步骤 来 创建 一 个 非 线性 学 习 机 . 这 样 的 直接 计算 方法 
称 为 核 技术 . 

有 一 个 从 输入 空间 LC SIAR AOR OL OH. 如 果 对 于 所 有 的 
ZizZiE 五 都 有 


k Cs Zz) = (@ (x) ,2 (Z)) wy 
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k PRR: Lx LR ARAB. 核 函数 的 行为 好 像 是 在 高 维特 征 空 间 中 进行 内 积 
运算 , 而 在 输入 空间 中 估计 结果 . 

”由 于 学 习 和 训练 都 依赖 特征 空间 内 积 的 值 , 那么 它们 都 可 以 从 核 函数 的 角度 加 
以 阐明 . 一 旦 选择 了 核 函 数 , 决策 函数 可 以 写成 


1 
f (x) = sign (>: aiyik(ai,x) + ) 


—l1 
那么 不 必 知 道 是 否 正在 进行 的 特征 映射 能 够 在 特征 空间 完成 学 习 任务 . 可 以 成 
为 核 函数 的 条 件 [6,7: 
(1) 对 称 函 数 


k (x, z) = (@ (x), ®(z)) 一 《更 (2z) ,更 (7Z)) = k (2, 2) 
(2) 满足 柯 西 - 施 瓦 效 不 等 式 


k (zz) =(G (x), 6(z))” = ||9(2)I" 19 (2)I° 
=( (x), 9(z)) (O(z), O(2)) = k (a, x) k (z, z) 


(3) (Mercer 定理 ) #4 LR, 的 密集 子 集 , 假设 上 是 连续 对 称 函 数 使 整数 算 
> 


如 果 
Tef(-) = i BC 2) (o) de 


为 正 , 即 对 于 所 有 的 fs Lo(L) 有 
| k (x, z) f (x) f (z) dzdz >0 
LxL 


那么 根据 Tr 的 特征 函数 ©; € Lo (L) 把 k(2, z) 扩张 到 一 个 一 致 收敛 序列 (FE Lx L 
上 ), 并 且 正 交 化 这 个 特征 向 量 ||9;||,. = 1 那么 联合 特征 值 NM) >0 


k(x, 2) = Aj %(e) 9; (2) 


4.23.3 ”基于 核 的 分 类 
有 很 多 方法 可 以 选择 特征 空间 .一般 来 说 应 该 选择 能 够 包含 原 属性 基本 信息 
的 最 小 特征 集 . 这 种 方法 称 为 特征 减少 , 它 对 运算 和 推广 很 有 利 


© = (71,---, In) — D(x) = (G(21,---, O(an))), d<n 
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为 了 使 线性 机 器 学 习 非 线性 相关 , 需要 选择 一 个 非 线性 特征 集 并 且 用 新 的 描述 
方法 重新 写 入 数据 . 这 个 过 程 实际 上 就 是 利用 一 个 固定 的 数据 非 线性 映射 到 一 个 
特征 空间 . 在 这 个 新 特征 空间 中 可 以 使 用 线性 机 器 . 因此 , 假设 集 将 会 是 这 种 类 型 


N 
f(z) = 》 wiG,(x) +6 
ot 


其 中 5:z 一 下 是 一 个 从 输入 空间 到 某 个 特征 空间 的 非 线性 映射 . 这 意味 着 创建 
非 线性 机 器 需要 两 个 步骤 : 首先 是 利用 非 线性 映射 把 数据 传递 到 特征 空间 , 其 次 是 
用 线性 机 器 在 特征 空间 中 分 类 这 些 数据 . 

根据 上 面 一 节 所 给 的 三 个 条 件 , 优化 分 离 平 面 和 低 维 空间 到 高 维 空间 的 映射 联 
系 在 一 起 . 一 般 来 说 , 一 个 支持 向 量 机 就 是 一 个 在 输入 空间 求 值 的 高 维 最 大 分 离间 
隔 超 平面 . 对 于 非 线性 分 离 的 数据 集 要 用 特征 空间 的 内 积 代 替 和 输入 空间 的 结果 重 
新 闻 述 先前 取得 的 结论 ，, 

硬 边界 最 优化 问题 (没有 交叉 的 样本 点 ) 


l l 
whee 1 
maximize Lp(a) = ba Qi 一 DE 04,0; YiY; k(2i, £5) 
光一 人 一 
Subject to (2 


l 
se Qi2Wi = 0 
oak 
对 于 范 数 为 1 的 软 边界 最 优化 问题 写成 


! ! 
ae. 1 
maximize Lp(a)= = or r) A407 Yiy;k(xi, £5) 
; a—1 i,j—1 
subject to O75 =< 0, B= Lersead 


l 
5 dn Qi2Wi = 0 
?一 | 


(有 交叉 的 样本 点 ) 与 硬 边 界 最 优化 问题 的 不 同 点 就 在 于 对 拉 格 朗 日 乘 数 的 额 
外 限制 : 0 < ai < c, 这 个 推广 条 件 称 作 盒 限 制 . 
基于 核 的 范 数 为 2 的 软 边界 向 量 机 为 (4 


l l 
i: 1 1 
maximize Lp(a) = 2 a; — 5 2 QiQJ ij (ke， x5) + a6) 
subject to re Tae | SR: See RP Aaa 


l 
pa AaYi = 0 
i=1 


4.2 支持 向 量 机 -51- 


硬 边界 分 类 问题 与 软 边界 分 类 问题 的 唯一 不 同 之 处 在 于 软 边 界 问 题 在 训练 点 内 
积 矩阵 的 对 角 线 上 多 了 一 -4 a 这 使 得 核 矩 阵 K 的 特征 值 多 了 一 个 = 因为 


1 1 1 
Kv= w+ (K+ G1)u=Kutgu=(a+g)e 


这 个 新 问题 可 以 理解 为 一 个 简单 的 变化 
k’ (a, 2) =k (2,2) + — 
上 式 为 支持 向 量 机 的 适应 性 提供 了 一 个 新 的 视野 来 看 待 前 面 提 到 的 非 平衡 数 
据 集 , 因为 必须 从 核 的 观点 重新 并 述 它 . 


1 
k(ai; Zz) 让 ae Ya = tl 
(23,2) = t 
b(Z:,2) 二 到 和 ci> a aw 
相应 的 线性 决策 函数 如 下 : 
SV 
f (x) =sign (>: avyik(x, 22”) + ) 

i=1 


通过 以 上 分 析 支 持 同 量 分 类 图 示 如 图 4-3 所 示 . 


线性 分 类 


图 43 支持 向 量 分 类 过 程 
这 个 过 程 的 主要 思想 是 首先 把 原始 数据 嵌入 一 个 低 维 的 输入 空间 ， 再 运用 构造 的 核 技术 把 它们 映射 到 高 维 
空间 并 进行 线性 分 类 , 并 且 最 终 使 得 数据 在 低 维 空间 非 线性 分 类 


核 函数 的 运用 是 计算 上 的 捷径 . 使 用 这 种 方法 , 首先 创建 一 个 复杂 的 特征 空间 ， 
其 次 计算 出 这 个 空间 中 的 内 积 , 再 次 找到 直接 计算 初始 输入 空间 值 的 方法 . 然而 在 
非 线性 分 类 中 采用 的 方法 是 直接 定义 一 个 核 函数 , 因此 隐 含 定义 了 一 个 特征 空间 . 
从 这 个 角度 来 说 , 规避 了 定义 特征 空间 就 是 规避 了 内 积 的 运算 . 
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4.2.4 多 重 分 类 


前 面 的 讨论 都 以 区 分 两 类 点 为 基础 , 然而 在 现实 世界 中 常常 处 理 多 于 两 类 点 的 
分 类 . 训练 集 由 数 对 (ci, yi) AK, 其 中 zi e Rk", Ay € {1,---,n},i=1,---,1. 下 
面 阐述 二 元 分 类 扩展 到 多 元 分 类 的 方法 . 多 元 分 类 是 以 二 元 分 类 为 基础 的 , 由 二 元 
分 类 扩展 到 多 元 分 类 一 般 包括 两 种 方法 41: @ 一 对 多 的 分 类 ; @ 一 对 一 的 分 类 . 
这 两 种 多 重 分 类 方法 的 比较 见 图 4-4. 


(a) 一 对 多 分 类 (b) 一 对 一 分 类 
图 44 两 种 多 重 分 类 方法 的 比较 ( 源 自 : Florian Markowetz, 2002) 


4.2.4.1 一 对 多 的 分 类 
使 用 二 元 分 类 器 构造 多 重 分 类 的 过 程 如 下 : 构造 多 个 二 元 分 类 函数 大 (z) = 
sign((wk,Z) + bk), k =1,---,n, 那么 训练 点 的 第 K 类 分 类 样本 可 以 表示 为 


上 +1，z 是 属于 第 友 类 的 点 
-其 他 


在 二 元 分 类 中 使 用 这 样 的 分 类 方法 , 但 在 多 元 分 类 中 这 样 进 行 分 类 就 会 出 现 混乱 . 
因为 要 把 平面 分 成 好 几 个 区 域 就 必须 有 多 个 分 类 器 处 于 激活 状态 . 

考虑 实 值 向 量 f (x) = (fi (x),---, fi, (x), 其 中 Fh (x) = (we, 2 十 区 .从 几何 
的 角度 来 看 , 这 个 向 量 的 每 一 个 组 分 是 z 到 第 ”个 超 平面 的 距离 . 选择 z 使 相应 
的 fi(c),k=1,---,n 的 值 到 超 平面 的 距离 最 大 


大 (Z) = 


k* = atgmax f, (x) 
k 


这 种 方法 称 “winner-takes-all”. 这 种 启发 式 方法 主要 的 缺点 是 所 得 边界 上 的 三 个 点 
5n 个 支持 向 量 机 计算 得 到 的 初始 决定 函数 必须 一 致 , 所 以 没有 发 挥 出 最 大 分 类 
超 平面 的 优势 . 这 种 方法 改善 了 硬 边界 二 元 决策 函数 , 但 没有 得 到 最 优 决策 边界 ， 
这 个 边界 只 能 由 同时 优化 所 有 三 个 边界 得 到 . 


42 支持 向 量 机 . 53 . 


4.2.4.2 ”一 对 一 的 分 类 
定义 了 一 个 决策 函数 fer : Rn 一 { 十 1 -1} WERE (k,l), 有 
fale +1， 如 果 zx 属于 大 类 
a 一 1 ”如果 xz 属于/ 类 


n(n — 1) 
2 


因为 数 对 是 对 称 的 , 有 fee = 一 处. 另外 定义 fre = 0, 可 以 得 到 | ) 一 
对 不 同 的 决定 函数 . 为 了 得 到 一 类 决策 函数 , KA 
fe= Se Feil) 


— 


42.4.3 直接 的 分 类 方法 

非 线性 分 类 数据 的 最 大 分 类 间隔 超 平面 优化 问题 可 以 推广 到 下 面 的 公式 . 有 
训练 集 一 {(xi, yi) 2 Dos SPI 其 中 二 {1,---,n}. k 类 发 生 lz 次 ， pa =f, 
那么 求解 


minimize = >» \lwel|? + C 575, Se ci® (4.27) 


k=] 7=1 
subject to ays + be — (Wm, 2i) —bm 2>1-EF, ys=k 


Hp 6, >0,k=1,---,n,m¢k,i=1,---,k, SPRMRAIWUAHRRAM 
i (e)— aye max fe (=) 三 arg max( (wk, Xs) sip) it vie ites om 
这 个 函数 与 二 元 分 类 的 不 同 之 处 在 于 该 函数 是 一 个 n 类 的 和 . 引入 拉 格 朗 日 
乘 数 可 以 把 这 个 函数 表达 成 对 偶 变 量 . eves 日 函数 


n 1% «tk 
Ly (w,b, €, a, 8) = 5D ll OD Se 一 >》 >》 aket 


了 二 到 一世 


l 
s 和 oa Sat (uy — Wm), BE) + bk — bm — 1+ €) 


k=1 m¢k i=1 
对 于 鞍点 上 的 w, b 和 Kita AS, 所 以 有 方程 
8 
gE RE m#k j=1 
Btn a > Fats Y= Sap a 
. m~k t=1 m#k j=1 
OLy Lee ym am —~ pF =0 (4.30) 


k 
08; m#k 
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由 (4.28) 式 得 到 ”个 超 平面 的 法 向 量 wx 的 展开 式 


SS of Ae hae k= loo (4.31) 


mk i=1 m#k j=1 
由 (4.29) 式 得 到 拉 格 朗 日 乘 数 的 约束 
lk lm 
> 久光 三 Sear (4.32) 
m#zk i=1 mk j=1 


把 (4.31) 式 和 (4.32) 式 代 入 (4.27) 式 中 得 到 L, 的 对 偶 拉 格 朗 日 函数 
maximize 


lk lk 
于 | 


k=1 mfZk md 4,j=1 


+>. >》 alae m* (gm gm x ‘y=25" 5 aes of ee ’)| 


subject to 0< BS a 二 
mk 


lk lm 
k k 
> > 人 三 > ) a,” k=I,-*-57 


m#k i=1 m#k j=1 


所 以 可 以 得 到 函数 f(x) 为 展开 的 支持 向 量 


lk lm 
= 》 Soap (ak z) + Y> am* (atc) + de 


m£k i=1 m#£k j=1 
WF n= 2 这 个 结果 与 二 元 分 类 的 情况 相符 ; 对 于 n > 2 时 , 同时 估计 U(n—1) 个 
参数 az 
4.2.4.4 多 重 分 类 法 的 比较 
直接 的 方法 是 把 支持 向 量 的 概念 直接 推广 到 两 个 以 上 的 类 .一 对 一 的 方法 保 
存 了 大 多 数 的 最 大 边界 超 平面 ， 而 一 对 多 的 方法 则 产生 出 一 个 超 平 面 结 构 和 一 个 
点 . 一 对 多 的 方法 比 一 对 一 的 好 处 就 在 于 只 须 对 每 一 类 点 构造 一 个 决定 函数 , 而 不 


必 构 造 | | 个 决策 函数 , 这 样 提高 了 计算 效率 . 
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5.1 支持 向 量 机 算法 中 目前 的 研究 状况 


由 于 具有 较 好 的 理论 基础 和 在 一 些 领域 的 应 用 中 表现 出 来 的 优秀 的 推广 性 能 ， 
支持 向 量 机 方法 近年 颇 受 关注 . 支持 向 量 机 算法 经 过 几 年 的 探索 已 丝 有 了 很 大 的 
改进 , 实际 应 用 也 越 来 越 广 . 尽管 支持 向 量 机 算法 的 性 能 在 许多 实际 问题 的 应 用 中 
得 到 了 验证 , 但 是 该 算法 在 计算 上 仍然 存在 着 一 些 问 题 , 这 些 问 题 包括 训练 算法 速 . 
度 慢 、 算 法 复杂 而 难以 实现 以 及 检测 阶段 运算 量 大 等 『e'771. 

传统 的 利用 标准 二 次 型 优化 技术 解决 对 偶 问 题 的 方法 可 能 是 训练 算法 慢 的 主 
要 原因 . 首先 , 支持 向 量 机 方法 需要 计算 和 存储 核 函 数 和 矩阵 ， 当 样本 点 数目 较 大 时 ， 
需要 很 大 的 内 存 ; 其 次 , 支持 向 量 机 在 二 次 型 寻 优 过 程 中 要 进行 大 量 的 矩阵 运算 ， 
多 数 情 况 下 , 寻 优 算法 是 占用 算法 时 间 的 主要 部 分 [7 

支持 向 量 机 方法 的 训练 运算 速度 是 限制 它 应 用 的 主要 方面 , 近年 来 人 们 针对 方 
法 本 身 的 特点 提出 了 许多 算法 来 解决 对 偶 寻 优 问题 . 大 多 数 算法 的 一 个 共同 的 思想 
就 是 循环 友 代 : 将 原 问 题 分 解 成 为 者 干 子 问 题 ,按照 某 种 欠 代 策略 , 通过 反复 求解 
子 问 题 , 最 终 使 结果 收敛 到 原 问 题 的 最 优 解 . 根据 子 问题 的 划分 和 迭代 策略 的 不 同 ， 
又 可 以 大 致 分 为 两 类 . 

第 一 类 是 “ 抉 算法 "46].“ 抉 算法 ”基于 这 样 一 个 事实 , 即 去 掉 拉 格 朗 日 乘 子 等 
于 零 的 训练 样本 不 会 影响 原 问题 的 解 . 对 于 给 定 的 训练 样本 集 , 如 果 其 中 的 支持 向 
BEGAN, 寻 优 算法 就 可 以 排除 非 文 持 向 量 , 只 需 对 文 持 向 量 计算 权 值 ( 即 拉 格 
朗 日 乘 子 ) BNA). 实际 上 支持 向 量 是 未 知 的 , 因此 “ 抉 算 法 ”的 目标 就 是 通过 某 种 迭 
代 方 式 逐 步 排除 非 支 持 向 量 . 具体 的 做 法 是 : 选择 一 部 分 样本 构成 工作 样本 集 进 行 
WA, 剔除 其 中 的 非 支持 向量 , 并 用 训练 结果 对 剩余 样本 进行 检验 , 将 不 符合 训练 
结果 (一 般 是 指 违反 Kohn-Tucker 条 件 ) 的 样本 (或 其 中 的 一 部 分 ) 与 本 次 结果 的 
支持 向 量 合并 成 为 一 个 新 的 工作 样本 集 , 然后 重新 训练 . 如 此 重复 下 去 直到 获得 最 
TER. 

5c 1 A Bee TVA AR AN, “RE” GRRE KAR Be 
算 速 度 . 然而 , 如 果 支 持 向 量 的 数目 本 身 就 比较 多 , SAE RAIS, 工作 
样本 集 也 会 越 来 越 大 , 算法 依旧 会 变 得 十 分 复杂 . 因此 第 二 类 方法 把 问题 分 解 成 为 
固定 样本 数 的 子 问题 : 工作 样本 集 的 大 小 固定 在 算法 速度 可 以 容忍 的 限度 内 , BAR 
过 程 中 只 是 将 剩余 样本 中 部 分 “情况 最 糟 的 样本 ”与 工作 样本 集中 的 样本 进行 等 
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量 交换 , 即使 支持 向 量 的 个 数 超过 工作 样本 集 的 大 小 , 也 不 改变 工作 样本 集 的 规模 ， 
而 只 对 支持 向 量 中 的 一 部 分 进行 优化 . 
固定 工作 样本 集 的 方法 和 块 算法 的 主要 区 别 在 于 : 块 算法 的 目标 函数 中 仅 包 
含 当前 工作 样本 集中 的 样本 ， 而 固定 工作 样本 集 方法 虽然 优化 变量 仅 包 含 工 作 样 
本 , 其 目标 函数 却 包 含 整 个 训练 样本 集 , 即 工作 样本 集 之 外 的 样本 的 拉 格 朗 日 乘 子 1 
固定 为 前 一 次 迭代 的 结果 , 而 不 是 像 块 算法 中 那样 设 为 0. 而 且 回 定 工作 样本 集 方 
法 还 涉及 一 个 确定 换 出 样本 的 问题 (因为 换 出 的 样本 可 能 是 支持 向 量 ). 这 样 , 这 一 
类 算法 的 关键 就 在 于 找到 一 种 合适 的 迭代 策略 使 得 算法 最 终 能 收敛 并 且 较 快 地 收 
敛 到 最 优 结果 . 


5.2 分 解 算 法 


当 支 持 向 量 的 数目 远 远 小 于 训练 样本 数目 时 , 块 算法 显然 能 够 大 大 提高 运算 速 
度 ; AM, 如 果 支 持 向 量 的 数目 本 身 就 比较 多 , 随 着 算法 和 迭代 次 数 的 增多 , 工作 样本 
集 也 会 越 来 越 大 , 算法 依旧 会 变 得 十 分 复杂 . 因此 , 如 果 把 问题 分 解 成 为 固定 样本 
数 的 子 问题 : 工作 样本 集 的 大 小 固定 在 算法 速度 可 以 容忍 的 限度 内 , 迭代 过 程 中 只 
是 将 剩余 样本 中 部 分 “情况 最 糟 的 样本 ”与 工作 样本 集中 的 样本 进行 等 量 交 换 , 即 
使 支持 向 量 的 个 数 超 过 工作 样本 集 的 大 小 也 不 改变 工作 样本 集 的 规模 , 而 只 对 支持 
向 量 中 的 一 部 分 进行 优化 , 这 就 是 分 解 算法 的 基本 思想 [eg 

分 解 算法 的 基本 思想 是 把 原 训练 集 索 引 {1,---,1} HAWS FR BAN, 其 
+ BELPER, N = {1,---,}\Bl. 如 果 向 量 集 we 和 ax 分 别 表示 对 应 的 元 素 ， 
那么 优化 的 目标 值 等 于 


1 1 
了 oaBQBBaB — (ep —Qpnan)' apt 5ONQNNGN —elhan 


在 每 一 个 循环 中 , on 是 固定 的 , 仅 解决 子 问题 
min 5a8Oaaaa — (ep —Qpnan)' ap 
0< (ag); <C, t= L-s:@ 


下 EA or 
VB5QB = —YNaANnN 


其 中 | Gap %sN | 是 矩阵 Q 的 一 个 排列 , ¢ 是 巨 的 大 小 .目标 函数 保持 严格 


GNB NN 
减 小 , FEEL BITTE SF GAR. 
分 解 算法 如 下 176.88) ; 
(1) 人 为 选择 样本 集合 B, 构造 子 问 题 . 


5.3 顺序 最 小 优化 算法 


(2) RF le GRC a;,ic BR b, HH a,j EN. 
(3) 对 于 Je N, 有 
Aj = 9, F (x5 )yj <1 
Aj =0; f (x5) y; | 
0<A;<C, flaj)yj #1 


用 Ni BH .,i ¢ BRR LAN Fi ea. 
为 了 减 小 篇 幅 , 后 面 一 章 对 分 解 算法 进行 更 详细 的 介绍 . 
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在 分 解 算 法 的 基础 上 , 微软 研究 院 的 研究 人 员 提 出 并 且 改 进 了 顺序 最 小 优化 算 
法 89j. 这 种 算法 将 工作 样本 集 的 规模 减 到 了 最 小 两 个 样本 . 之 所 以 需要 两 个 
样本 是 因为 等 式 线性 约束 的 存在 使 得 同时 至 少 有 两 个 拉 格 朗 日 乘 数 发 生变 化 . 由 
于 子 问题 的 优化 只 涉及 两 个 变量 , 而 且 应 用 等 式 约束 可 以 将 其 中 一 个 变量 用 另 一 个 
变量 线性 表示 出 来 , 所 以 迭代 过 程 中 每 一 步 的 子 问题 的 最 优 解 可 以 直接 用 解析 的 方 
法 求 出 来 , 无 须 使 用 数值 分 析 中 的 二 次 规划 软件 包 , 提高 了 子 问题 的 运算 速度 . 他 们 
还 设计 了 一 个 两 层 骨 套 循环 分 别 选 择 进入 工作 样本 集 的 两 个 样本 , 外 层 循环 选择 第 
一 个 样本 , 内 层 循环 选择 第 二 个 样本 . 外 层 循环 首先 在 整个 样本 空间 循环 一 遍 , 决 
定 哪 些 样本 违反 了 Kohn-Tucker 条 件 0 < ai < C. 如 果 找 到 了 不 满足 Kohn-Tucker 
条 件 的 样本 , 它 即 被 选 作 进入 工作 集 的 第 一 个 样本 . 然后 根据 第 二 个 启发 式 规则 选 
择 第 二 个 样本 . 最 后 用 解析 的 方法 快速 对 选 定 的 样本 进行 优化 . 为 了 加 快 算法 的 运 
行 速度 , 外 层 循环 不 总 是 每 次 检查 所 有 训练 样本 . 每 次 在 所 有 样本 上 循 环 一 遍 以 后 ， 
外 层 循环 只 在 拉 格 朗 日 乘 数 大 于 零 和 小 于 C 的 样本 上 进行 循环 , 直到 所 有 拉 格 朗 
日 乘 数 大 于 零 和 小 于 C 的 样本 都 满足 了 最 优化 所 应 该 满足 的 Kohn-Tucker 条 件 ， 
然后 再 在 整个 样本 空间 循环 一 遍 . 这 样 , 外 层 循 环 是 交替 地 在 整个 样本 空间 和 拉 格 
朗 日 乘 数 大 于 零 且 小 于 C 的 样本 上 循环 . 内 层 循 环 选择 第 二 个 进入 工作 集 的 样本 ， 
选择 的 原则 是 使 目标 函数 靠近 最 优点 的 速度 达到 最 快 . 这 种 启发 式 的 样本 选择 策 
略 大 大 加 快 了 算法 的 收敛 速度 . 顺序 最 小 优化 算法 表现 在 速度 方面 的 良好 性 能 , 它 
可 以 看 作 是 分 解 算 法 的 一 个 特例 , 它 将 子 问题 的 规模 减少 到 了 最 小 . 子 问题 的 规模 
和 迭代 的 次 数 是 一 对 矛盾 ， 顺 序 最 小 优化 算法 将 工作 样本 集 的 规模 减少 到 两 个 样 
A, 一 个 直接 的 后 果 就 是 欠 代 次 数 的 增加 . 所 以 顺序 最 小 优化 算法 实际 上 是 将 求解 
子 问 题 的 耗费 转嫁 到 迭代 上 , RRR ESR RRR [791. 


5.3.1 ”顺序 最 小 优化 算法 的 原理 
对 于 标准 的 支持 向 量 机 二 次 规划 问题 , 最 小 可 能 优化 问题 涉及 两 个 拉 格 朗 日 乘 


. 58 . RSE 应 用 于 支持 向 量 机 的 主要 算法 


子 , 因为 拉 格 朗 日 乘 子 必须 满足 线性 方程 的 限制 . 在 优化 的 每 一 步 , 序列 最 小 优化 
选择 两 个 拉 格 朗 日 乘 子 进行 优化 , 来 寻找 乘 子 的 优化 值 . 序列 最 小 优化 所 谓 的 最 大 
好 处 就 是 可 以 用 解析 的 方法 求解 每 一 个 最 小 规模 的 优化 问题 , 从 而 完全 避免 了 迭代 
算法 . 
当然 , 这 样 一 次 优化 不 可 能 保证 其 结果 就 是 所 优化 的 拉 格 朗 日 乘 子 的 最 终结 
果 , 但 会 使 目标 函数 向 极 小 值 迈 进一步 . 再 对 其 他 拉 格 朗 日 乘 子 做 最 小 优化 , 直到 
所 有 乘 子 都 符合 Kohn-Tucker 条 件 时 , 目标 函数 达到 最 小 , 算法 结束 . 
序列 最 小 优化 算法 要 解决 两 个 问题 : @ 用 解析 方法 优化 两 个 拉 格 朗 日 乘 子 ; 
Q) 使 用 启发 式 方法 选择 需要 进行 优化 的 拉 格 朗 日 乘 子 . 
5.3.2 两 个 拉 格 朗 日 乘 子 的 优化 问题 
序列 最 小 优化 首先 计算 乘 子 的 上 下 限 限 制 . 不 妨 设 正 在 优化 的 两 个 拉 格 朗 日 乘 
子 对 应 的 样本 正 是 第 一 个 和 第 二 个 , 对 两 个 拉 格 朗 日 乘 子 Qi 和 a2, 在 其 他 乘 子 不 
改变 的 情况 下 , 它们 的 约束 条 件 应 表达 为 正方 形 内 的 一 条 线段 413]. 
ao 的 上 下 限 应 为 
下 限 : D = max (0. a2 + Y1Y201 — 5 (yiy2 + 1) c) 
ERR: H=min(C, ag+yiyeai — 5 (y1y2 — 1) c) 
而 a, 和 ag 在 本 次 优化 中 所 服从 的 等 式 约 柬 为 


ai + yry2a2 = a? + yry209 = d 
目标 函数 二 阶 导数 
n = K(a1, 21) + K(ao, 22) — 2K (a1, 22) >0 


BE, =u —y AR i MIAAANRZ, 那么 无 条 件 的 极 值 点 就 为 


Ek, —E 
I pe LAC lie : 2) 
1) 
那么 最 终 的 as2 A 
=, a2 >H 
Q2# 一 4 ag, L<ag<H 
iL, ag <L 


最 后 , 由 等 式 约 束 确定 aa 为 


QI1# = Q1 + Y1Y2 (A2 — A2*) 
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5.3.3 ”选择 待 优化 拉 格 朗 日 乘 子 的 局 发 式 方法 


为 了 使 算法 收敛 得 更 快 , 系列 最 小 优化 方法 使 用 了 启发 式 方法 寻找 拉 格 朗 日 乘 
子 进行 优化 . 启发 式 方法 先 选 择 最 有 可 能 需要 优化 的 ay, 再 针对 这 样 的 ua 选择 最 
有 可 能 取得 较 大 修正 步 长 的 m， 这 个 过 程 使 用 两 个 层次 的 循环 , 外 层 循环 遍历 非 
边界 样本 或 所 有 样本 : 优先 选择 遍历 非 边 界 样本 , 因为 非 边 界 样 本 更 有 可 能 需要 调 
整 , 而 边界 样本 常常 不 能 得 到 进一步 调整 而 留 在 边界 上 . 大 部 分 样本 都 不 是 支持 向 
量 , 它们 的 拉 格 朗 日 乘 子 不 为 零 和 C, 而 拉 格 朗 日 乘 子 取得 零 值 就 无 须 再 调整 ， 循 
环 遍 历 非 边界 样本 并 选 出 它们 当中 违反 Kohn-Tucker 条 件 的 样本 进行 调整 , 直到 非 
边界 样本 全 部 满足 Kohn_Tucker 条 件 为 止 . 当 某 一 次 遍历 发 现 没有 非 边界 样本 得 到 
调整 时 ,就 遍历 所 有 样本 , 以 检验 是 否 整个 集合 也 都 满足 Kohn-Tucker 条 件 . 如 果 
在 整个 集合 的 检验 中 又 有 样本 被 进一步 优化 , 就 有 必要 再 遍历 非 边界 样本 . 这 样 直 
到 整个 训练 集 都 满足 Kohn-Tucker 条 件 为 止 . 

内 层 循环 针对 违反 Kohn-Tucker 条件 的 样本 选择 另 一 个 样本 与 它 配对 优化 , 先 
择 的 依据 是 尽量 使 这 样 一 对 样本 能 取得 最 大 优化 步 长 ， 对 其 中 一 个 拉 格 朗 日 乘 子 
as 来 说 , 优化 步 长 为 aoe . 对 于 核 函 数 估算 耗 时 较 大 , 用 |B, — By] 来 大 臻 


估计 有 可 能 取得 的 步 长 大 小 , 即 选 出 使 得 |B, - Eo| 最 大 的 样本 作为 第 二 个 样本 . 
5.3.4 每 次 最 小 优化 后 的 重 置 工 作 


每 做 完 一 次 最 小 优化 , 必须 更 新 每 个 样本 的 误差 , 以 便 用 修正 过 的 分 类 面 对 其 
他 样本 再 做 Kohn-Tucker 检验 , 以 及 选择 第 二 个 配对 优化 样本 时 估计 步 长 之 用 . 

更 新 样本 的 误差 需要 首先 重 置 阔 值 以 使 得 两 个 样本 都 满足 Kohn-Tucker 条 
件 . 直接 利用 刚刚 被 优化 的 两 个 样本 的 信息 在 原 阔 值 o 基础 上 作 简 单 修正 ， 而 不 
需要 调用 所 有 支持 向 量 重新 计算 ”最 小 优化 后 的 ai* 如 果 不 在 边界 上 , 5 的 计算 
公式 为 


hb =h+m (ay * —a’) K (21,21) + yo (a2 米 一 a3) K (21,22) +6 


最 小 优化 后 的 az* 如 果 不 在 边界 上 , b 的 计算 公式 为 


bo = Eo 十 Yi (aa * 一 oa) K (x1, 22) + Y2 (a2 * —a$) K (x2, £2) +b 
ay *, a2k 都 不 在 边界 上 时 , b, All bo 是 相等 的 . 两 个 拉 格 朗 日 乘 子 都 在 边界 上 时 , by 
和 bo 以 及 它们 之 间 的 数 都 可 作为 符合 Kohn-Tucker RCE AY RMA. 这 时 顺序 最 小 优 
化 算法 选择 by , bo 之 中 点 作为 阔 值 . 
非 线性 的 情况 , 误差 的 计算 要 用 到 所 有 已 找到 的 支持 向 量 及 它们 的 拉 格 朗 日 乘 
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ug= > gga K (ai;05) = b 
支持 向 量 
Bj = Uj — Yj 
线性 的 情况 则 是 先 重 置 分 类 超 平 面 的 法 向 量 w, 再 根据 wj = (w, zi) — > 计算 输出 
Uj 和 误差 E; = Uj — Yj. [ra EY Be ES FF, 法 向 量 的 重 置 也 不 需要 调用 所 有 的 文 
持 向 量 , 只 需 在 原来 的 法 向 量 基础 上 作 改 动 


we = w+ y (a1 * —Q1) Fy + Yo (a2 * —Q2) Lo 


5.3.5 ”顺序 最 小 优化 算法 的 特点 和 优势 

顺序 最 小 优化 算法 和 以 往 流行 的 支持 向 量 机 优化 算法 (如 块 算法 、 固 定 工作 
样本 集 法 ) 相 比 , 既 有 共同 点 , 又 有 自己 的 独特 之 处 . 共同 点 在 于 它们 都 是 把 一 个 
大 的 优化 问题 分 解 为 很 多 小 问题 来 处 理 . 块 算法 在 每 一 步 中 将 新 加 入 样本 中 违反 
Kohn-Tucker 条 件 的 样本 与 原 有 的 支持 向 量 一 起 组 成 小 问题 的 样本 集 进 行 优化 , 优 
化 完毕 后 只 保留 其 中 的 支持 向 量 , 再 加 进来 新 的 样本 进入 下 一 步 . 分 解 算法 是 每 一 
步 只 收集 新 加 入 样本 中 “最 坏 ” 的 样本 , 并 将 原来 保留 的 支持 向 量 集中 较 好 的 蔡 换 
出 去 , 以 保持 样本 集 大 小 不 变 . 顺序 最 小 优化 算法 法 则 是 把 每 一 步 的 优化 问题 缩减 
到 了 最 小 , 它 可 以 看 作 是 固定 工作 样本 集 法 的 一 种 特殊 情况 : 把 工作 样本 集 的 大 小 
固定 为 2, 并 且 每 一 步 用 两 个 新 的 拉 格 朗 日 乘 子 替换 原 有 的 全 部 乘 子 “431. 

顺序 最 小 优化 算法 的 最 大 特色 在 于 它 可 以 采用 解析 的 方法 而 完全 避免 了 二 次 
规划 数值 解法 的 复杂 迭代 过 程 . 这 不 但 大 大 节省 了 计算 时 间 , 而 且 不 会 牵涉 迭代 法 
造成 的 误差 积累 . 理论 上 顺序 最 小 优化 算法 的 每 一 步 最 小 优化 都 不 会 造成 任何 误 
ERA, 而 如 果 用 双 精 度数 计算 , 舍 入 误差 几乎 可 以 忽略 , 于 是 所 有 的 误差 只 在 于 
最 后 一 遍 检验 时 以 多 大 的 公差 要 求 所 有 拉 格 朗 日 乘 子 满足 Kohn-Tucker 条 件 . 可 以 
说 顺序 最 小 优化 算法 在 速度 和 精度 两 方面 都 得 到 了 保证 . 

由 于 顺序 最 小 优化 算法 不 涉及 二 次 规划 数值 解法 , 就 不 必 将 核 函数 矩阵 整个 存 
在 内 存 里 , 而 数值 解法 每 步 迭 代 都 要 拿 这 个 矩阵 作 运 算 . 于 是 顺序 最 小 优化 算法 使 
用 的 内 存 是 与 样本 集 大 小 呈 线 性 增长 的 , 而 不 像 以 往 的 算法 那样 呈 平 方 增长 . 

顺序 最 小 优化 算法 对 线性 支持 向 量 机 最 为 有 效 , 对 非 线性 则 不 能 发 挥 出 全 部 优 
势 , 这 是 因为 线性 情况 下 每 次 最 小 优化 后 的 重 置 工 作 都 是 很 简单 的 运算 , 而 非 线性 
时 有 一 步 加 权 求 和 , 占用 了 主要 的 时 间 . 其 他 算法 对 线性 和 非 线性 区 别 不 大 , 因为 
凡是 涉及 二 次 规划 数值 解 的 算法 都 把 大 量 时 间 花 在 求 数值 解 的 运算 中 了 . 


‘ 
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6.12 Ta 
首先 介绍 Libsvm 中 使 用 的 与 支持 向 量 分 类 相关 的 主要 公式 821, 


6.1.1 C 支持 向 量 分 类 (二 元 ) 


如 果 训 练 向 量 使 2;¢R", i=1,---,l 分 为 两 类 , 向 量 yE 尼 有 We {1, =}, 
C-SVC 44] fRRD ELI a 


20 
be he 于 
min 5w vagy & (6.1) 


subject to yj (w’ $(x;) +b) >1-& 
€& 20, «=1,---,20 


它 的 对 偶 问题 为 


1 
min 5% Qa 一 DTa (6.2) 
上 Co 


yIa=0 


其 中 p 代表 所 有 向 量 之 一 , C > 0 是 拉 格 朗 日 乘 数 的 上 界 , Q 21x 1 阶 的 半 正 定 
矩阵, 并 且 Qi; = yy; K (ai,2;), K (ai, 2;) = O(2:)' 5(zi) 是 核 函数 . 训练 向 量 zi 
被 函数 5 映射 到 高 维 空间 . 决策 函数 为 


l 
sign (>: yiaiK (2;,2) + ) 
i=1 


6.1.2 支持 向 量 分 类 (二 元 ) 


v 支持 向 量 分 类 [sl 使 用 参数 v, 这 个 参数 可 以 同时 控制 支持 向 量 的 参数 和 分 
类 错误 . 参数 ve (0,1) 是 部 分 训练 错误 点 的 上 界 和 部 分 支持 向 量 的 下 界 SA, 

如 果 训 练 向 量 zi e R"，;i = 1 …，! 分 为 两 类 , AByc R' Fy © {1,-]}, 
BA v 支持 向 量 分 类 的 原始 优化 问题 为 


l 
: 1 1 
min zu ew —vpt+ 了 于 6 (6.3) 


res i=1 
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yi (w* @ (x;) +b) > p-& 


它 的 对 偶 问 题 为 
Te S 
min 5% Qa 
WE ae 
eIa dul 


VIa =0 


EL Qi; = yiy; K (zi 2;). 决策 函数 为 


sign (>: Yi (=) K (44,2) + ) 
re 2 p QZ》 
那么 两 个 边界 与 C 支持 向 量 分 类 器 的 相同 , 为 


yi (wt  (a;) + (== 


6.2 ”二 次 规划 问题 的 解决 


6.2.1 C-SVC 的 分 解 算法 
考虑 C-SVC 的 一 般 形 式 
min 50" Qa +p'a (6.4) 
yla=A 


De rei hen oe «of 


Foy = 41, t=1,---,1. PR (6.4) 式 的 困难 在 于 @ 的 密度 , AH O,, 一 般 
NEF. 

在 Libsvm 中 使 用 了 分 解 算 法 . 分 解 方法 如 下 : 

(1) 给 定数 值 g <1 作为 工作 集 的 容量 , 找到 ad 作为 初始 解 , 令 大 二 1 

(2) WR o* 是 (6.2) 式 的 优化 解 , 停止 . 否则 , 找到 一 个 容量 是 g 工作 集 BC 
{1 中. EM N= {1,---,\B A ak UR ok 分 别 作为 ax 相对 于 互 和 N 的 
子 向 量 . 

(3) 解 以 下 带 变量 we 的 子 问题 


ei vs a Be es 


6.2 二 次 规划 问题 的 解决 .63 . 


eed 下 
min 了 aBQBBaB 十 (pB + Qpnahy) QB (6.5) 
0< (ag), <C, t=1,---,q 


T ye Tk 
VEQaB 三 和 人 一 VNQN 


其 中 Qan | 是 矩阵 Q 的 转 置 
QNB QNN 


(4) 设 okt? 是 (6.5) 式 的 优化 解 , 并 且 oft 三 ay. 使 大 一 大 十 1 并且 返回 第 
ee. 
分 解 方法 的 基本 思想 是 在 每 一 个 循环 , 把 训练 集 的 {1.…,/} 的 元 素 分 解 为 两 
A BAN, 其 中 BRUTE, HH ON = {1……, 信 \B. 由 于 ax 是 固定 的 , 所 以 
目标 值 为 
oapas — (pp — Qpnan)' ae 十 s0hQnwan — pNan 
然后 解 这 个 含有 变量 ae 一 个 子 问题 , 即 解 得 (6.5) 式 . 最 后 更 新 工作 集 B, 并 进入 
下 一 个 循环 . 

6.2.2 ”工作 集 的 选择 和 停止 循环 的 标准 


分 解 方法 的 一 个 重要 的 方面 是 如 何 选择 工作 集 B. (6.4) 式 的 KKT 条 件 显示 
有 一 个 标量 b) 和 两 个 非 负 向 量 和 必 优化 问题 的 原始 形式 和 对 偶 形 式 中 入 和 上 
在 KKT 条 件 下 相同 , 那么 有 


CO 
Qa+pt+by¢, =0, 0<a<C 
<0. a=C 
如 果 y,=+1, i=1,---,l, BK C>0, 上 面 的 KKT 条 件 可 以 表示 为 
Y=la<C => (Qa+p),+b20 > b> —-—(Qa+p), = —Vf (a); 


y%=—la:>0 > (Qa+p),-0<0 > b>(Qat+p), =VE (a), 
ye=—larp<C > (Qa+p),-b20 > b<(Qatp), =Vf (a), 
Y=la >0 => (Qa+p),.+5<0 一 b<—-(Q.+pP), =—-Vf (a), 


(6.6) 


其 中 F(a) = 507 Qa + pla A Vf (a) & f(a) 在 a 的 梯度 . 考虑 


i = argmax( {-Vf (qa), |y¥=1l,are<C}, {Vf (a),lye=—lat>0}) (6.7) 

j =argmin( {Vf (a), lye =—l,ar<C}, {-Vf(a),lye=1,0:>0}) (68) 

B = {i,j} 作为 分 解 方法 子 问 题 (6.5) 式 的 工作 集 . 这 里 《和 7 是 最 达 不 到 
KKT 条 件 的 两 个 元 素 . 


+: 68 Libsvm fait 


_J -Vf (a); WRy =1ai<C 
ot tery Sag eal 


以 及 
igh 二 (ah gn Ry; =-la<C | 
a Svea, lak 1 ee 
从 (6.6) 式 得 到 
Gi S -9; 
这 就 意味 着 o 是 优化 问题 (6.2) 式 的 一 个 解 
循环 停止 的 标准 为 
Gi S-gj +e 


其 中 es 是 一 个 小 正 数 . 
6.2.3 支持 向 量 分 类 的 分 解 方法 
考虑 v 支持 向 量 分 类 的 一 般 形 式 4 


1 
min 5a°Qa+pra (6.9) 


其 中 y%=+1, t=1,-:-,l. 
在 Libsvm 中 使 用 的 ， 支持 向 量 分 类 的 分 解 算 法 C 支持 向 量 分 类 的 分 解 算法 
相同 , 但 是 其 子 问题 的 表示 方法 有 所 不 同 


= eek si 
min 本 aBQBBaB + (pp 十 Qpna\) ap (6.10) 
“0 < (as), <C, t=1,---,q ; 
yzop = Al 一 外 ok 


ea = Ao- eLak, 


WOR Mie T TIC i Aj, Boy: A y;, BA ygow = Al 一 中 ak A ehag = 
Ao —enah, 表示 有 两 个 方程 带 有 两 个 变量 , 所 以 (6.10) 式 仅 有 一 个 可 行 点 , 因此 其 
解 就 是 ok. 另外 , WR y: = y;, BA 同 ag = Ai —yhoak 和 eaB = Az —enay 
相同 , ABA (6.10) 式 就 有 多 个 可 行 解 , 因此 在 选择 工作 集 时 保持 yi = yy. 


6.2 三 次 规划 问题 的 解决 . 65 . 


ee 
由 (6.9) 式 得 


= 0<ai<C 
Vi (a); — pt by: >0, aj =0 
| a= 


者 
rp=p—b, rea=pt+b 


a y;, =1, 那么 KKT 条 件 变 为 


To 
a2 y; = —1, 那么 KKT 条 件 变 为 
wien-m] Za, aso 
因此 , 工作 集 元 素 ; AG 从 
i =argmin ({Vf(a),lye=1, ar <C}) (6.11) 


j =argmax({Vf (a), |ye=1, a+ > 0}) 
中 选择 还 是 从 
i = argmin ({Vf(a),lye=—1, ae <C}) (6.12) 
j =argmax({Vf(a),lye=—1L > 0}) 
中 选择 依赖 于 那个 工作 集 能 给 出 较 小 的 Y7 (a); — VE (O);- 
6.2.4 解析 解法 
(6.5) 式 可 以 表示 为 只 有 两 个 变量 的 简单 问题 
min 5 | ai a; ] 5 = | | : | + (Qi,wan — 1) ai 十 (QiNQaN — 1) 0; 
yio4 + yjay = A’ =A-ynolhy (6.13) 


o= ay, aj <C 
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在 (6.5) 式 的 目标 函数 中 痊 换 w = y: (A— yan —yja,), HAE ay ERR 
个 非 限制 性 的 最 小 化 值 . 可 以 得 到 下 面 的 解 : 


EGG 
new 一 7” Oe O57 205 vit Wy (6.14) 
d Gi G; j 


Bat Oi 2057 BY 
其 中 
Gr =.V fla): ## HG; =Vf(a)j 
如 果 这 个 值 落 在 ai 的 可 行 域 之 外 , ABA (6.11) 式 的 值 也 会 超出 可 行 域 . 那么 
a; 就 要 被 赋予 一 个 新 值 . 例如 , WA y: = 4; FFA C<aita;<2C, ary 必须 
满足 下 面 式 子 : 
L=a+aj=Caay <C=ai 
apew 和 amew 最 大 取 值 可 以 是 C. 那么 如 果 
Gi —G; 
a Qi + 2Qi; ae 
ae = L 
那么 
a” = a taj — a7” =C (6.15) 
这 相当 于 使 用 线段 来 优化 二 次 函数 . 这 个 线段 为 线性 限制 条 件 
yin + yjaj = A’ 
和 边界 限制 条 件 
0 < Ai; a; < CG 
中 间 的 一 部 分 . 
从 数值 上 来 说 , 最 后 的 方程 (6.15) 可 能 不 成 立 , 即 会 发 生 浮 点 运算 
A, + aj — ee 
= Qi + Aj — (a; +0; —C) 
at 


因此 在 多 数 的 SVM 软件 中 需要 指定 一 个 小 的 偏差 =s, 并 且 认 为 所 有 的 a; > C 一 ea 
都 是 上 界 、 所 有 ai < su 都 是 零 . 在 有 些 数 据 被 误 认 为 是 支持 向 量 时 这 种 指定 是 必 
要 的 . 另外 , 计算 偏差 项 也 是 出 于 正确 确定 自由 拉 格 朗 日 乘 子 ui (0 < ai < C) 的 需 
Be. 


6.3 ”压缩 和 缓存 - 67 - 


6.2.5 D 和 的 计算 

HF > 和 p 包含 于 决策 函数 中 , 所 以 取得 了 对 偶 优 化 问题 的 解 a 后 必须 计算 
这 两 个 参数 . 当 wm = 1 时 , WR um 满足 (0 和 ai <C), PA =Vf(a);. 实际 上 
为 了 规避 数量 错误 , 必须 求 平 均值 


Djoca<omen VS (a); 
> oeacees 4 


另外 , 如 果 ai WHE (0 <a; < C), 那么 r;, 必须 满足 


Mere 
ae VS (a);<n< a, in_， Vf (a); 


这 时 取 作为 取 值 范围 的 中 点 [9 . 
对 于 y: = -1, 依据 同样 方法 可 以 计算 出 ro. 计算 得 到 了 ri: 和 re 后 , 可 以 求 
3 b Al p, 有 


= tg = 2 


现在 KKT 条 件 可 以 写成 


YS 1 
ax _， Vf (a); < oan _, Vf (a); 


is 
max Vf(a);< 


min Vf (a), 
ai >0,y;=—-1 ai<C,Vyi 一 一 1 FI di 


在 这 种 情况 下 可 以 使 用 下 面条 件 停 止 循环 : 如 果 循 环 a 满足 下 面 的 条 件 : 


— min Vf(a);+ max Vf (a); 
max | a ORT a! ai >0,y;=1 <eé (6.16) 


re pe rae Vi (); ir Qj Sry Vi (a); 


分 解 方法 停止 . 其 中 s > 0 是 预先 选择 的 停止 偏差 . 


6.3 ”压缩 和 缓存 


6.3.1 压缩 

很 多 问题 中 自由 支持 向 量 ( 即 0 <a; < C) 的 数目 很 小 , 压缩 技术 减 小 了 没有 
考虑 到 边界 变量 的 预 解决 问题 的 工作 集 大 小 . 循环 过 程 即将 结束 时 , 分 解 方法 能 够 
确定 可 行 集合 A 集合 4 中 包含 几乎 所 有 的 自由 拉 格 朗 日 乘 子 ai;4o71. 下 面 的 理 
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论 表明 在 选择 工作 集 和 循环 停 在 标准 时 , 在 假定 的 分 解 方法 循环 的 结尾 处 仅仅 对 应 
于 小 集合 的 变量 仍然 可 以 变化 

如 果 {ax} 是 由 分 解 算法 产生 的 序列 , 那么 任何 收敛 的 子 序列 的 极限 是 (6.4) 
式 的 优化 解 . 因此 当 lim ax = a BY, a 是 一 个 优化 解 . 另外 , 足够 大 时 仅仅 在 


max{_ max -—Vf(a@),, max Vf(@), 
{tl-u VF (@) ft = (oa ye an ) 
min (in VIO): 


| 
中 的 元 素 可 以 被 替换 . | 
因此 在 几 个 循环 后 当 变量 w; 等 于 C 时 , 在 最 终 解 中 这 个 变量 仍然 为 上 界 . 那 

么 (6.2) 式 可 以 通过 解 小 一 些 的 问题 来 代替 


| 2 
min 50AQ 44a 一 (pA 一 Q4var) QA (6.17) 
0 < (aa), < Cb 1-3-4 


下 二 Pyke 
yaaa = A-Ynan 


其 中 N = {1,---,0\A 

Libsvm 从 开始 就 进行 压缩 过 程 . 其 过 程 如 下 : 

(1) 每 一 个 循环 min (1, 1000) 后 , 试图 压缩 一 些 变量 . 注意 在 循环 过 程 
min( {Vf (ar), lye=—lar<C}, {Vf (an): lye =1,ar>0} )= 曙 

< Gi= max ( {-Vf (an): lye=1ar<C}, {VF (axe): lye = —1, 0 > 0} ) 


ogi < -9i 这 个 条 件 并 没有 满足 . 


如 果 
pr cee Be ay Pe as) 
Vi (a); ¥%=-1, a >O0 
A 
9t S -9; (6.19) 
Ai a, 残 基 位 于 边界 上 , BA a 的 值 不 变 . 固定 这 个 变量 . 同样 , 对 于 那些 
ehh ae <C a 
Vi (Q);, Yt = 是 at > 0 


如 果 


9t 之 一 9j 


Ce rp 


64 多 元 分 类 - 69 - 


A mw 残 基 位 于 边界 上 , 这 个 变量 也 被 固定 . 因此 集合 4 在 每 一 个 循环 min (1, 1000) 
中 动态 地 减少 . 

(2) 上 面 的 压缩 方法 很 苛刻 . 因为 分 解 方法 收敛 速度 很 慢 , 并 且 大 部 分 循环 对 
于 完成 最 终 需 要 的 准确 率 是 无 效 的 . 因为 (6.17) 式 的 错误 压缩 会 当 费 运算 时 间 . 因 
此 当 分 解 方法 首先 完成 容 限 

9t < —g; + 10e 

其 中 <s 是 指定 的 循环 停止 偏差 . 在 重新 构建 整个 斜率 后 基于 正确 的 信息 使 (6.18) 
式 和 (6.20) 式 的 循环 固定 一 些 变量 , 分 解 算 法 得 以 继续 . 

在 Libsvm 中 , (6.17) HARA 4 的 大 小 是 动态 减 小 的 . 为 了 减 小 重新 构建 斜 
率 Vf (a) 的 计算 成 本 , 在 循环 期 间 , 总 是 保持 

G,=C_ YO, gai Sud 


aj=C 
RIGA S BER Vi (a), i¢ A, A 
l 
Vi ()..= 起 ia = G+ De 人 ae 
j=l 


0<a;<C 


6.3.2 BF 
另 一 项 减 小 计算 成 本 的 技术 是 缓存 . 因为 Q 是 高 密度 的 , 而 且 没有 保存 在 计 
算 机 的 内 存 中 , 在 需要 的 时 候 要 计算 元 素 Qi 那么 当前 的 Qi; 可 以 储存 在 缓存 中 . 


6 本 多 元 分 类 
Libsvm 中 使 用 “一 对 一 ”的 方法 进行 多 元 分 类 应 用 这 种 方法 需要 构建 


k(k—1)/2 个 二 元 分 类 器 , 每 个 分 类 器 对 两 个 不 同 的 训练 数据 集 进 行 分 类 . 为 了 
训练 从 第 在 类 和 第 7 个 类 数据 集中 训练 数据 , 需要 解 下 面 的 二 元 分 类 问题 : 


5 (oH)? w +0 (2), ) 

(wit)? @(a,)) + yi S17, Ra ERR 

((wit)" © (a2) +09 <-1+€7, HR FERRI 

&’ 20 

分 类 过 程 中 , Libsvm 使 用 投票 策略 : 每 次 二 元 分 类 被 看 成 一 次 投票 过 程 , 每 个 


数据 点 看 成 是 一 个 选票 , 最 后 该 数据 点 被 归 类 为 得 票 最 多 的 类 . 如 果 两 类 具有 相同 
的 票数 , 由 于 没有 找到 更 好 的 方法 Libsvm 认为 它 属 于 索引 序号 较 小 的 类 . 


min 
wid , bid et 
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另 一 种 多 元 分 类 方法 为 “一 对 多 ”, 其 中 构建 了 大 个 SVM 模型 , 其 中 第 ;个 
SVM 模型 被 第 i 类 中 所 有 的 样本 训练 , 在 第 ;类 中 一 部 分 样本 的 标签 为 正 , 另 一 部 
分 为 负 . Libsvm 没有 采用 这 种 策略 . 

虽然 程序 训练 了 KE (k —1)/2 个 子 分 类 器 , 因为 每 个 子 问题 都 很 小 (数据 仅 来 自 
两 个 类 ), 总 的 训练 时 间 并 不 多 于 “一 对 多 ”方法 . | 


6.5 ” 非 乎 衡 数据 集 


对 于 一 些 分 类 问题 , 每 个 类 别 中 数据 的 数量 是 不 平衡 的 . 那么 一 些 研究 者 设想 量 
在 SVM 公式 中 使 用 不 同 的 罚 分 参数 |71: 例如 , C-SVM 变 成 
了 um 十 CH ¥ fet CL S; &; 
er yi=—1 

GSO, +=1,---4 

它 的 对 偶 形 式 为 
min 50 Qa —ela 

0<ai< C1, on Ry; =1 

0<a,<C_, MRy=-1 

yla=0 

对 于 使 用 不 同 的 C;, i= 1 ……, 替换 C, 前 面 进行 的 解析 分 析 的 很 大 部 分 仍 

然 正 确 . 现在 使 用 C. AC. 只 是 特例 . 因此 运行 结果 几乎 是 一 样 的 . 但 是 前 面 的 
子 问题 (6.13) 式 的 解 成 为 
Qii Qi; | | ay 
Qi O55 ob 
Vioi + yjaj 一 人 A 一 9 六 aX 
0< a-< Cz ‘0<a; <C; 


其 中 OC; AC; 是 否 可 以 由 Cy 和 C-_ 代替 取决 于 区 和 y;. 


6.6 ”模型 的 选择 


2 
min —[a; oj] + (Qi,wan — 1) a; + (Q;,nan — 1) 0; 


ai,a; 2 


Libsvm 提供 了 一 个 使 用 RBF 核 函数 的 模型 选择 工具 : 平行 搜索 的 交叉 验证 
试验 . 虽然 这 个 工具 目前 仅仅 支持 C-SVC 中 两 个 参数 C Aly, 然而 这 个 工具 可 以 
轻而易举 地 进行 修改 而 适用 于 其 他 核 函 数 , 如 线性 核 和 多 项 式 核 . 


6.7 预测 蛋白 质 结构 中 运用 Libsvm 的 基本 操作 方法 “7. 


在 使 用 这 个 工具 的 过 程 中 , 使 用 者 首先 必须 提供 一 个 可 能 的 C( 或 7) 的 步 长 
然后 计算 每 一 组 (C,?) 格 点 的 值 , 看 看 哪个 格 点 能 给 出 最 高 的 交叉 验证 准确 率 . 98 
后 使 用 者 就 可 以 使 用 最 好 的 参数 训练 整个 训练 集 并 得 到 最 终 的 模型 ， 在 进行 多 元 
分 类 时 , 所 有 的 二 元 分 类 模型 都 使 用 相同 的 〔C, 7 


6.7 预测 蛋白 质 结构 中 运用 Libsvm 的 基本 操作 方法 


Libsvm 软件 包 操作 简单 、 容 易 使 用 , 实验 中 , 选择 了 Linux 操作 系统 安装 Lib- 
svm. 因为 实验 只 涉及 模式 识别 的 问题 , 所 以 对 于 回归 函数 估计 问题 这 里 不 作 讨论 . 

使 用 Libsvm 的 第 一 步 是 向 量化 残 基 序列 , 即 把 字母 形式 的 残 基 序列 转 化 成 为 
向 量 形式 . 这 种 转化 称 作 藤 入 , 后 面 一 章 详 细 介绍 嵌入 的 方法 . 得 到 的 向 量 要 转化 
成 为 Libsvm 可 用 的 形式 8485). Libsvm 要 求 向 量 为 文本 书 件 , 其 格式 为 “类 别 
Ae”, 即 文件 的 第 一 个 位 置 为 欲 分 类 向 量 的 类 别 . 这 个 类 别 一 般 用 一 个 整数 表示 ， 
操作 者 可 以 自己 定义 , 比如 -1、0 或 1 等 . 把 所 有 要 分 类 的 样本 按照 上 面 的 格式 都 
写 入 一 个 文件 中 . 然后 使 用 grid.py 程序 对 其 进行 优化 . 通过 这 个 优化 可 以 得 到 相 
关 的 优化 参数 , 并 且 grid.py 还 会 以 图 形 形 式 给 出 优化 结果 . 使 用 这 个 优化 结果 可 
以 得 到 样本 的 最 优 分 辩 率 . 利用 上 面 优化 得 到 的 参数 、 使 用 train 程序 就 可 以 进行 
训练 支持 向 量 机 的 工作 了 . 

下 面 说 明 train 程 序 的 参数 . train NSB AA on F (http: //www.csie.ntu.edu.tw/~ 
cjlin/libsvm/ ): 

(1) 参数 的 格式 例子 : -s 0 -c 1000 -tt1-g1-rl-d3 表 示 : 多 项 式 核 函 数 二 元 分 
类 (wu + 1), 其 中 C = 1000. 

(2) -s: 支持 向 量 机 的 类 型 (默认 是 0). 其 中 0 表示 C- 支持 向 量 分 类 ; 1 表示 
nu- 支持 向 量 分 类 ; 2 表示 一 类 支持 向 量 机 ; 3 表示 epsilon- 支持 向 量 回 归 ; 4 表示 
nu- 支持 向 量 回 归 . 

(3) -t: 核 函 数 的 类 型 (默认 是 2). 其 中 0 表示 线性 内 核 : w xv; 1 表示 多 项 式 
内 核 (gamma x wu’ x v 十 coef0)"egree; 2 表示 径 向 基 内 核 : exp (-gamma x Ju — ol’); 
3 表示 S 函数 : tanh (gamma x wu’ x v + coef0). 

(4) -d, degree: 设置 核 函数 的 乘 方 数 (默认 为 3). 

(5) -g gamma: 设置 核 函数 中 gamma 的 值 (默认 为 =), 

(6) -r, cost: 设置 C- 支持 向 量 分 类 中 参数 C 的 值 (默认 为 0). 

(7) -c, cost: 设置 C- 支持 向 量 分 类 、epsilon- 支持 向 量 回 归 和 nu- 支持 向 量 回 
归 中 参数 C 的 值 (默认 为 1). 

(8) -n, nu: 设置 nu- 支持 向 量 分 类 、 一 类 支持 向 量 机 和 nu- 支持 向 量 回 归 中 参 
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数 nu 的 值 (默认 为 0.5). 
(9) -p, epsilon: 设置 epsilon- 支持 向 量 回 归 中 损失 函数 epsilon 的 值 (默认 为 


(10) -m, 缓存 的 大 小 : 设置 缓存 (单位 MB, 默认 为 40). 

(11) -e, epsilon: 设置 中 止 条 件 的 容 限 (默认 为 0.001). 

(12) -h, 缩减 : 是 否 使 用 启发 式 缩减 , 0 或 1( 默 认为 1). 

(13) -wi, MH: 设置 i 类 参数 C 为 权重 乘 以 C, 对 于 C- 支持 向 量 分 类 (默认 


(14) -v: 计算 交叉 验证 时 把 训练 集 分 割 的 数量 . 


S73 蛋白质 二 级 结构 预测 


7.1 蛋白 质 结构 


蛋白 质 序列 的 基本 单位 是 氨基 酸 , 在 天 然 状 态 下 可 以 构成 蛋白 质 的 氨基 酸 共有 
20 种 , 它们 都 是 L- 型 氨基 酸 . 不 同 氨基 酸 之 所 以 可 以 形成 不 同 的 三 维 结构 , 主要 区 
别 在 于 它们 侧 链 的 大 小 、 形 状 、 反 应 性 和 形成 氢 键 的 能 力 不 同 . 蛋白 质 的 分 子 结构 
可 分 为 一 级 、 二 级 、 超 二 级 结构 、 三 级 、 四 级 结构 以 及 分 子 缔 合 体 六 个 层次 , 后 三 
者 统称 为 高 级 结构 或 空间 构象 . 蛋白 质 的 空间 构象 涵盖 了 蛋白 质 分 子 中 每 一 个 原子 
在 三 维 空间 的 相对 位 置 . 并 非 所 有 蛋白质 都 有 四 级 结构 , 由 二 条 或 二 条 以 上 多 肽 链 
形成 的 蛋白 质 才 有 四 级 结构 SS). 蛋白 质 的 折 登 是 有 序 的 、 由 玻 水 作用 力 推 动 的 协 
同 过 程 . 伴侣 分 子 在 蛋白 质 的 折合 中 起 着 辅助 性 的 作用 . 蛋白 质 多 肽 链 在 生理 条 件 
下 折 和 登 成 特定 的 构象 符合 热力 学 原理 的 作用 过 程 , 即 可 以 保持 分 子 处 于 结构 上 最 稳 
定 的 状态 . 折 登 的 天 然 蛋白 质 在 变性 因素 影响 下 可 以 失去 活性 . 在 某 些 条 件 下 , 变 
性 的 蛋白 质 可 能 会 恢复 活性 . X 射线 晶体 衍射 和 核磁 共振 是 测定 蛋白 质 以 及 其 他 
生物 大 分 子 结构 的 有 效 方法 . 


7.1.1 蛋白质 的 一 级 结构 


蛋白 质 的 一 级 结构 是 指 蛋 白质 分 子 中 氨基 酸 的 排列 顺序 . 主要 化 学 键 是 肽 键 和 
三 硫 键 . 参与 肽 键 的 6 个 原子 Car. C. OLN. Hy Coo 位 于 同一 平面 , 且 Car. Car 
在 平面 上 所 处 的 位 置 为 反 式 构 型 , 此 6 个 原子 即 构成 了 肽 单元 , 其 基本 结构 见 图 
7-1. 


Ai a, 
| 1| 。 肽 键 ale ae 
a N 一 一 Cu C 一 
| | 
H |RH A 


A 7-1 肽 单元 示意 图 


7-1 中 的 A、B 键 是 单 键 , 可 在 一 定 程度 上 自由 旋转 , 也 正 由 于 这 两 个 单 键 
, 的 自由 旋转 角度 , 决定 了 相 邻 肽 单元 之 间 的 相对 空间 位 置 . 其 中 的 肽 键 有 一 定 程度 
双 键 性 质 , 不 能 自由 旋转 . 两 个 氨基 酸 残 基 之 间 通 过 肽 键 相 互 链接 . 肽 基 或 肽 单元 
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是 有 极 性 的 , 也 是 一 种 具 刚 性 的 平面 . N—C, Al Ca。 一 C 单 键 旋转 的 角度 分 别 用 © 
All ws 描述 . 这 两 个 角 旋 转 的 角度 决定 两 个 相 邻 肽 基 的 空间 位 置 . 如 果 这 两 个 旋转 角 
分 别 相 等 , 则 多 肽 链 主 链 是 有 规律 的 构象 . 

一 级 结构 是 蛋白 质 空间 结构 和 特异 生物 学 功能 的 基础 . 氨基 酸 排列 顺序 的 差 
别 意 味 着 从 多 肽 链 骨 架 伸 出 的 侧 链 R. 基 团 的 性 质 和 顺序 对 于 每 一 种 蛋白 质 是 特异 
的 一 一 因为 R 基 团 大 小 不 同 , 所 带电 荷 数 目 不 同 , 对 水 的 亲和力 不 相同 , 所 以 蛋白 
质 的 空间 构象 也 不 同 . 

一 级 结构 中 有 些 氨基 酸 的 作用 却 是 非常 重要 的 , 若 蛋 白质 分 子 中 起 关键 作用 
的 氨基 酸 残 基 缺 失 或 被 替代 , 都 会 严重 影响 其 空间 构象 或 生理 功能 , 产生 某 种 疾病 ， 
这 种 由 蛋白 质 分 子 发 生变 异 所 导致 的 疾病 , 称 为 “分 子 病 ”. 蛋白 质 一 级 结构 与 功能 
的 关系 如 下 : 

(1) 一 级 结构 是 空间 构象 和 功能 的 基础 , 空间 构象 遭 破 坏 的 多 肽 链 只 要 其 肽 键 
未 断 , 一 级 结构 未 被 破坏 , 就 能 恢复 到 原来 的 三 级 结构 , 功能 依然 存在 ; 

(2) 即使 是 不 同 物种 之 间 的 多 肽 和 和 蛋白质 , 只 要 其 一 级 结构 相似 , 其 空间 构象 
及 功能 也 越 相似 ; 

(3) 物种 越 接 近 , 其 同类 蛋白 质 一 级 结构 越 相似 , 功能 也 相似 . 


7.1.2 蛋白质 的 二 级 结构 特征 


和 蛋白质 的 二 级 结构 指 恒 白质 分 子 中 某 一 段 肽 链 的 局 部 空间 结构 , 也 就 是 该 段 肽 
链 主 链 骨 架 原 子 的 相对 空间 位 置 , 并 不 涉及 氨基 酸 残 基 侧 链 的 构象 . 维系 二 级 结构 
的 化 学 键 主要 是 氨 键 . 二 级 结构 的 主要 形式 包括 : a 螺旋 结构 、B8 折合 和 无 规则 卷 
曲 , 在 a 螺旋 和 6 TBP, 这 两 个 旋转 角 都 是 分 别 相等 的 . 因此 , a 螺旋 和 8 折 
登 是 有 规律 的 构象 , 其 中 螺旋 是 各 种 二 级 结构 中 最 具 刚 性 、 最 致密 、 最 稳定 的 构象 . 
它们 是 构成 蛋白 质 高 级 结构 的 基本 要 素 . 由 于 蛋白 质 结 构 中 氨基 酸 残 基 之 间 的 空间 
位 置 没有 一 种 特定 的 模式 , 并 且 残 基 之 间 , 以 及 残 基 的 分 子 之 间 在 生理 环境 中 不 是 
僵化 不 变 的 , 所 以 目前 对 于 蛋白 质 二 级 结构 的 确切 定义 还 没有 统一 定论 , 各 种 不 同 
版 本 的 定义 都 是 根据 不 同 的 具体 需要 定义 的 . : 


7.1.2.1 a Me 


从 和 蛋白质 晶 体 的 X 射线 衍射 图 中 看 到 有 0.5 ~ 0.55nm 的 重复 单位 , 这 种 重复 
性 结构 一 般 为 a 螺旋 . a 螺旋 的 结构 特点 如 下 加] : 

(1) 多 个 肽 键 平面 通过 a 碳 原子 旋转 , 相互 之 间 紧 密 盘 曲 成 稳固 的 右手 螺旋 . 

(2) 主 链 呈 螺旋 上 升 , 每 3.6 个 氨基 酸 残 基 为 一 个 循环 , 每 个 氨基 酸 残 基 向 上 平 
移 0.15nm, 螺 距 0.54nm. 这 与 X 射线 衍射 图 相 吻 合 . 

(3) 相 邻 两 个 螺旋 之 间 借 肽 键 中 的 C 一 0O 双 键 和 N—H 单 键 之 间 形 成 许多 链 内 
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2g, 即 每 一 个 氨基 酸 残 基 中 的 N 一 再 和 前 面相 隔 三 个 残 基 的 C—O 之 间 形 成 氢 
键 , 氧 键 的 方向 与 螺旋 长 轴 基 本 平行 , 这 是 使 a 螺旋 形成 具有 稳定 结构 的 主要 化 学 
键 . 

(4) 肽 链 中 氨基 酸 侧 链 R, 分 布 在 螺旋 外 侧 , 其 形状 、 大 小 及 电荷 影响 a 螺旋 
的 形成 .酸性 或 碱 性 氨基 酸 集中 的 区 域 , 由 于 同 电荷 相 斥 , 不 利于 a 螺旋 形成 . 较 
大 的 RMAA AR. BAR. FAR) 集中 的 区 域 , 也 妨碍 a BREE Re. AR 
AK a 碳 原子 位 于 五 元 环 上 , 不 易 扭 转 , 加 之 它 是 亚 氨基 酸 , 不 易 形 成 气 键 , 故 不 易 
形成 上 述 a 螺旋 . 甘氨酸 的 R AEA 再 , 空间 占 位 很 小 , 也 会 影响 该 处 螺旋 的 稳定 . 


7.1.2.2 BAH 


从 蛋白 质 晶体 的 X 射线 衍射 图 中 看 到 有 0.7nm 的 重复 单位 . 两 段 以 上 的 这 种 
FEAR, 通过 氧 键 相连 而 平行 成 片 层 状 的 结构 称 为 6B. 5 片 层 结构 
特点 是 |, 

(1) 8 折 受 是 肽 链 相当 伸展 的 结构 , 肽 链 平面 之 间 折 倒 成 锯齿 状 , 相 邻 肽 键 平面 
间 呈 110° 角 . 氨基 酸 残 基 的 R. 侧 链 伸 出 在 锯齿 的 上 方 或 下 方 . 

(2) 依靠 两 条 肽 链 或 一 条 肽 链 内 的 两 段 肽 链 间 的 C—O 双 键 与 N-- 互 单 键 之 间 
ERAS, KARA ASHEN KHER. 这 是 使 6 折 和 登 形成 具有 稳定 结构 的 主要 
化 学 键 . 

(3) 两 段 肽 链 可 以 是 平行 的 , 也 可 以 是 反 平 行 的 . 平行 的 8 TBM SN 端 ” 到 
“C 端 ” 是 同方 向 的 , 反 平 行 的 8 ABM “NH” 3) “CHP BRAAN. 6 TBH 
形式 十 分 多 样 , 正 、 反 平行 能 相互 交替 . 

(4) 平行 的 8 折叠 结 构 中 , 两 个 残 基 的 间距 为 0.65nmi; 反 平 行 的 8 HEH, 
则 间距 为 0.7nm. 


7.1.2.3 BA 


蛋白 质 分 子 中 , 肽 链 经 常会 出 现 180 ”的 回 折 , 通常 由 4 个 氨基 酸 残 基 组 成 , 在 
这 种 回 折 角 处 的 构象 就 是 6 转角 . 8 转角 中 , 第 一 个 氨基 酸 残 基 的 C—O 双 键 与 第 
四 个 残 基 的 N—H 单 键 之 间 形 成 氨 键 , 从 而 使 结构 保持 相对 稳定 . 8 转角 第 二 个 残 
ef AAR, 因为 其 N 原子 位 于 环 中, 形成 肽 键 N 原子 上 已 没有 HURT, 不 能 
再 形成 气 键 , 因而 走向 发 生 转 折 . 6 转角 常 发 生 在 蛋白 质 分 子 的 表面 , 这 与 蛋白 质 
的 生物 学 功能 有 关 . 


7.1.2.4 无 规 卷 曲 


没有 确定 规律 性 的 部 分 肽 链 构象 称 为 无 规则 卷曲 ， 肽 链 中 肽 键 平面 不 规则 排 
列 , 属于 松散 的 无 规 卷曲 . 
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7.1.3 ”蛋白 质 结 构 域 、 三 级 结构 与 四 级 结构 


在 大 多 数 球状 蛋白 质 中 , 往往 可 以 观察 到 可 明显 区 分 的 二 级 结构 组 合 . 这 种 组 
合 称 为 超 二 级 结构 或 基 元 . 基 元 也 许 具有 结构 和 功能 上 的 作用 . 分 子 较 大 的 多 肽 常 
TT BE SPS SE SERRE, 这 种 球状 筷 叫 做 结构 域 或 域 结构 . 大 多 数 域 结构 由 100~ 
200 个 氨基 酸 残 基 构 成 , 平均 直径 约 2.5nam. 一 条 多 肽 链 在 一 个 域 范围 内 来 回 折 丢 ， 
但 相 邻 的 域 常 被 一 个 或 两 个 多 肽 片段 连接 . 因而 域 在 结构 上 是 独立 的 、 具 有 小 分 子 
球状 蛋白 质 的 特性 的 单位 . 域 结 构 往 往 有 特殊 的 功能 , 例如 结合 小 分 子 . 

三 级 结构 主要 针对 球状 蛋白 质 而 言 , 是 指 主 链 和 侧 链 在 空间 中 的 走向 . 在 球状 
蛋白 质 中 , 侧 链 基 团 的 定位 是 根据 它们 的 极 性 安排 的 . 蛋白 质 特定 的 空间 构象 由 氢 
键 、 离 子 键 、 偶 极 与 偶 极 间 的 相互 作用 、 范 德 华 力 以 及 疏水 作用 等 作用 力 维持 , 下 
水 作用 是 主要 的 作用 力 . 有 些 蛋 白质 还 涉及 二 硫 键 . 疏水 键 是 蛋白 质 分 子 中 疏水 基 
团 之 间 的 结合 力 , 酸性 和 碱 性 氨基 酸 的 OR 基 团 可 以 带电 荷 , 正 负电 荷 互 相 吸 引 形成 
离子 键 , 与 氢 原 子 共用 电子 对 形成 的 键 为 气 键 . 

蛋白 质 的 四 级 结构 是 由 有 生物 活性 的 两 条 或 多 条 肽 链 组 成 , 肽 链 与 肽 链 之 间 不 


通过 共 价 键 相连 , 而 由 非 共 价 键 维系 . 每 条 多 肽 链 都 有 其 完整 的 三 级 结构 , WAS 


白质 的 亚 基 , 这 种 蛋白 质 分 子 中 各 个 亚 基 的 空间 排 布 及 亚 基 接触 部 位 的 布局 和 相互 


作用 , 称 为 蛋白 质 的 四 级 结构 . 在 四 级 结构 中 , 各 亚 基 之 间 的 结合 力主 要 是 疏水 作 


A, 氢 键 和 离子 键 也 参与 维持 四 级 结构 . 含有 四 级 结构 的 蛋白 质 , 单独 的 亚 基 一 般 
没有 生物 学 功能 , 只 有 完整 的 四 级 结构 才 有 生物 学 功能 . 


7.2 BEA RRA TE 


蛋白 质 二 级 结构 因子 的 鉴别 是 确定 蛋白 质 结构 的 主要 步骤 . 这 种 鉴别 是 以 后 


的 可 视 化 、 结 构 比 较 、 分 类 、 同 源 建 模 、Threading 和 序列 比 对 的 基础 . 在 溶液 中 的 
蛋白 质 的 结构 不 是 固定 不 变 的 , 结构 片段 之 间 柔 性 程度 变化 很 大 , 这 种 变化 对 于 和 蛋 
白质 实现 其 功能 来 说 必 不 可 少 (86), 

对 于 蛋白 质 二 级 结构 目前 仍 没有 普遍 认可 的 、 适 用 于 各 个 方面 应 用 的 定义 . 虽 
然 很 多 人 都 根据 蛋白 质 空间 结构 的 物理 特征 进行 了 定义 , 但 是 这 些 定义 都 是 针对 某 


种 用 途 的 .每 种 定义 都 是 根据 定义 者 以 往 的 经 验 以 及 对 数量 众多 的 结构 进行 观察 


总 结 出 来 的 . 我 认为 这 种 定义 方法 论 可 以 简 述 为 : 看 着 像 、 并 且 这 么 定义 有 用 . 通 


过 精确 的 理论 推理 和 计算 的 结构 无 疑 会 对 人 们 理解 蛋白 质 具 有 更 广泛 的 用 途 . 下 


面 介 绍 几 种 主要 的 定义 , 这 些 定义 分 别 根据 氨基 酸 序列 的 氨 键 、 氢 键 键 能 和 主 链 扭 
曲 角 度 即 肽 键 平面 的 © Al ob 角度 以 及 Ca。 原子 之 间 的 相对 距离 来 定义 . 


i 
| 
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7.2.1 DSSP 数据 库 中 的 蛋白 质 二 级 结构 特征 识别 
7.2.1.1 三 级 结构 因子 及 氢 键 的 定义 


1951 年 Linus Pauling 和 Robert Corey 根据 氨 键 和 协调 性 标准 对 于 a 螺旋 和 
8 折 释 进行 了 预测 .后 来 人 们 使 用 X 射线 衍射 技术 看 到 了 这 些 结构 的 详细 的 原子 
结构 . 但 是 这 只 是 模糊 的 直觉 概念 , 只 有 这 些 模糊 的 概念 不 能 满足 人 们 在 实验 中 的 
BER, 必须 依据 清晰 的 算法 确认 这 些 结构 . 

对 蛋白质 二 级 结构 清晰 、 客 观 和 准确 的 定义 是 正确 分 析 氮 基 酸 序列 与 蛋白 质 
二 级 结构 的 关系 的 前 提 条 件 . DSSP 数据 库 制 订 了 一 套 由 X 射线 衍射 坐标 确定 的 
氨 键 和 氨基 酸 序列 的 几何 特征 来 识别 蛋白 质 二 级 结构 的 方法 . 然而 到 目前 为 止 还 
没有 一 个 氢 键 的 通用 定义 , 任何 氨 键 都 是 根据 某 种 特殊 目的 、 依 据 经 验 定义 的 871. 

这 种 方法 认为 构成 二 级 结构 的 基本 要 素 为 重复 的 氢 键 模式 “转弯 ”和 “ 桥 ”. 重 
复 的 转弯 是 “螺旋 "; 重复 的 桥 是 “梯子 ", Ka RNR Ge”. 几何 结构 由 
具有 不 同 几何 特征 的 扭曲 和 转弯 定义 . 局 部 的 手 性 指 的 是 四 个 连续 的 碳 原子 扭曲 的 
方向 . 右手 螺旋 的 手 性 为 正 , 折 县 的 手 性 是 负 . 卷曲 的 片段 定义 为 “弯曲 ”. 溶解 的 
“暴露 ” 指 的 是 可 能 接触 到 一 个 残 基 的 水 分 子 的 数量 . 

Pauling 等 认为 结构 模式 识别 的 过 程 就 是 从 原子 坐标 提取 蛋白 质 结构 特征 的 过 
程 . 为 了 区 分 不 同 的 基本 二 级 结构 模式 ,必须 明确 所 涉及 的 参数 . 这 里 定义 二 级 结 
构 主要 使 用 决定 氨 键 有 无 的 参数 一 一 键 能 5). DSSP 数据 库 中 二 级 结构 识别 算法 
主要 建立 在 氧 键 模式 的 基础 上 

(1) “mn #2”. 残 基 ; 的 C=O BA SRHit+ nf NH SACHA, 
FH n = 3, 4,5. 

(2) “PR”. 不 相 邻 残 基 之 间 的 氢 键 . 

这 两 种 模式 基本 耗 尽 了 所 有 骨架 中 的 所 有 氧 键 . 重复 的 “4 转弯 ”形成 了 a 螺 
旋 , 重复 的 桥 构成 了 8 HS. 基本 模式 以 外 的 模式 还 包括 310 螺旋 、r 螺旋 、 孤 立 
的 转弯 以 及 孤立 的 9 桥 . 

蛋白 质 二 级 结构 等 级 也 可 以 根据 氧 键 特征 定义 [87]: 

(1) 基本 定义 为 氧 键 ; 
(2) 以 氢 键 定义 为 基础 的 转变 和 桥 ; 

(3) 在 此 基础 之 上 定义 了 a 螺旋 和 8 梯子 , 其 中 包括 一 般 的 不 完整 的 二 级 结 
构 , 比如 螺旋 纽 结 和 8 桥 ; 

(4) 几何 特征 定义 为 弯曲 、 手 性 、 二 硫 键 和 浴 解 暴露 . 

每 种 结构 特征 都 是 独立 定义 的 . 氧 键 模式 定义 可 以 用 方程 


Hf (i, 7) =: [一 0.5kcal/mol] 
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表示 , 其 意义 为 : 如 果 EF —0.5kcal/mol, 就 存在 一 个 氨 键 . 
7.21.2 ”基本 二 级 结构 因子 定义 


利用 C, O (+a, -9) 和 N,H (—2, +42) 原子 团 之 间 的 部 分 电量 计算 的 氨 键 之 
间 的 电子 能 量 为 


E = qq (1/r (ON) + 1/r (CH) — 1/r (OH) — 1/r(CN)) * f 


其 中 q = 0.42e,q2 = 0.20e, 这 里 e 为 单位 电子 电量 , r(AB) A AA B ZA 
离 , 单位 是 埃 . 空间 因子 f=—332A, E WAL kcal/mol. 一 个 稳定 的 氨 键 应 该 有 
—3kcal/mol 的 键 能 . DSSP 指定 了 一 个 判断 氨 键 的 界限 : 如 果 五 小 于 这 个 界限 , 即 


Hf (i, 7) =: [-0.5kcal/mol] 


就 认为 存在 一 个 残 基 ; 的 C=O 键 和 残 基 7 的 N—H $22 [AI AVE. DSSP 方法 的 “ 
定义 仅 适 合 定义 蛋白 质 二 级 结构 , 不 会 引起 二 级 结构 的 错误 识别 (71, 

转弯 模式 就 是 一 个 (ii; 十 m) RANA. 从 C 一 0() 到 N 一 HG 十 n) HA 
为 残 基 的 ”转弯 , 即 


转弯 (i) =: HE (t,i+n), n=3,4,5 


ASAE HN = RSER B (i —1,1,64+1) M (f —1,97,7 +1) 可 以 根据 两 种 基本 
的 匹配 模式 形成 平行 的 或 反 平 行 的 桥 . 如 果 两 个 氨 键 以 


EAT BF (i, 7) =: HE (i — 1, 7) AUN (j,i + 1) , BR 
He (j — 1, i) MWB (i, 7 + 1) 
SOVAT HF (i, j) =: HEE (i, 7) MABE (5, 1) ,或 
Hé# (i — 1,7 + 1) MH (7 — 1,14 1) 
为 特征 , 那么 残 基 i 和 残 基 7) 之 间 就 存在 一 个 桥 . 
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两 个 连续 的 nm 转弯 确定 了 最 小 的 螺旋 , 例如, NRA ; 到 残 基 ;i 十 3 的 一 个 4 
螺旋 最 小 长 度 为 4 这 个 螺旋 需要 位 于 残 基 ; _ 1 和 残 基 ; 的 两 个 4 转弯 


4 螺旋 (zi + 3) =: [4 — 转弯 (i — 1) 和 4 — 转弯 (] 
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BUSH (i 1,143) MISS (ii 十 和 . 这 里 残 基 + 1 和 残 基 ; 十 2 不 需要 氧 键 . 
同样 , 一 个 从 残 基 ; 到 残 基 ;+2 的 3 螺旋 最 小 长 度 为 3, 需要 两 个 连续 的 转弯 . 一 
个 从 残 基 i 到 残 基 ;i 上 +4 的 5 螺旋 最 小 长 度 为 5 


3 螺旋 (i,i + 2) =: [3 转弯 (i — 1) 和 3 转弯 (a)] 
5 螺旋 (ii + 4) =: [5 转弯 (i — 1) 和 5 转弯 (i)] 


较 长 的 螺旋 为 最 小 螺旋 单位 的 重复 . 传统 上 这 些 结构 称 作 a 螺 旋 、31o 螺旋 和 螺旋 . 

BT AT Be MA 

梯子 : 一 个 或 多 个 连续 相同 类 型 的 桥 结 构 . 

Dr: 一 个 或 多 个 由 共同 残 基 联 结 的 梯子 构成 的 结构 . 

长 的 螺旋 中 可 能 存在 气 键 缺失 现象 . 例如 两 个 重 登 的 最 小 螺旋 被 两 个 或 三 个 残 
基 链 接 在 一 起 形成 一 个 螺旋 . 跟 规则 的 7 残 基 螺 旋 或 8 残 基 螺 旋 相 比 , 它 失去 了 第 
三 个 或 第 四 个 氢 键 . 这 种 不 完美 的 结构 是 螺旋 中 的 绞 结 . 

8 结构 是 由 一 个 6 折 登 股 上 带 有 至 多 一 个 额外 的 残 基 , 另 一 股 上 带 有 至 多 
4 个 残 基 链 接 的 同一 类 型 的 梯子 或 桥 组 成 的 凸 联结 这 个 定义 与 拉 式 图 (Fichar- 
dson's)n223] 的 观察 结果 一 致 , 除了 通常 存在 的 8 桥 中 点 格 错误 , 还 有 更 多 的 突起 . 
在 名 义 上 的 梯子 中 , 凸 链接 的 梯子 也 当 作 梯 子 (线性 的 桥 ) 来 处 理 . 总 之 包括 外 来 
残 基 在 内 的 所 有 的 凸 链接 梯子 上 的 残 基 都 标记 为 “E”. 


7.2.1.4 几何 结构 


(1) Sah. 弯曲 指 的 是 在 蛋白 质 的 二 级 结构 中 曲 度 高 的 区 域 29. 曲 度 是 指 以 
5 个 残 基 中 位 于 中 心 的 残 基 ; 为 基点 , 前 三 个 残 基 的 主 链 方向 和 后 三 个 残 基 的 主 链 
方向 夹 角 的 大 小 . 以 ;为 基点 的 弯曲 曲 度 大 于 70", 即 


25 HH (i) =: [角度 {(C" (4) — C% (i — 2)) , (C* (i + 2) — C% (i))} > 70°] 


那么 这 个 二 级 结构 为 弯曲 , 标记 为 “S”. 
(2) 手 性 . 残 基 的 手 性 (除了 链 的 两 个 末端 ) 为 


(人 两面 角 (Ce — 1) , C% (4)) , (C* (6 +1) , C* (4 +. 2))) 


多 数 螺 旋 手 性 是 正 的 , 多 数 扭曲 的 8 梯子 的 手 性 是 负 的 . 

(3) SS 键 . SS 键 , 即 两 个 半 胱 氨 酸 的 硫 原 子 之 间 的 共 价 连接 , 直接 从 PDB 数 
据 库 中 取得 , 它们 是 氨基 酸 序列 中 的 一 部 分 . 根据 坐标 数据 , 两 个 $ 之 间 的 距离 小 
3A. 

(4) 链 的 断裂 . 如 果 肽 键 的 长 度 超过 2.5A, 就 认为 是 键 的 断裂 . 标记 为 “! ” HE 
为 一 个 断裂 残 基 . 键 的 断裂 反映 了 化 学 键 的 缺失 、 衍 射 图 的 密度 丢失 或 坐标 错误 . 
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7.2.2 ”蛋白 质 二 级 结构 鉴别 方法 


STRIDE 是 根据 氢 键 键 能 和 主 链 扭 曲 角度 进行 蛋白 质 结构 自动 比 对 的 方法 80. 
由 于 二 级 结构 模式 的 性 质 、a 螺旋 的 四 残 基 转弯 、68 HSA AKA AEA 
氨基 酸 残 基 中 的 5 和 > 值 的 统计 学 性 质 共 同 确定 , 所 以 两 种 因素 在 决定 二 级 结构 
时 的 权重 要 预先 确定 . 每 种 氢 键 模式 都 由 这 些 量 的 闪 值 精确 协调 来 共同 定义 , 如 果 
螺旋 两 端的 残 基 有 可 以 合适 的 更 水 角度 的 话 , STRIDE 就 会 把 螺旋 末端 的 一 个 或 
两 个 未 端 残 基 都 包含 在 螺旋 内 [81. 同样 , 如 果 O-) 角度 不 合适 , 在 DSSP 中 定义 
的 短 的 a 螺旋 可 能 被 认为 是 别 的 二 级 结构 . 也 就 是 说 如 果 @ 沙 角度 不 合适 , HA 
键 模式 定义 的 螺旋 结构 可 能 被 否定 [801. 


7.2.2.1 Apert 


STRIDE 中 氧 键 的 键 能 定义 方法 与 DSSP 中 有 所 不 同 .在 STRIDE 中 , 氢 键 能 
En, 由 通过 大 量 实验 数据 分 析 得 到 的 经 验 能 量 函 数 计算 , 这 种 函数 是 由 分 析 大 量 多 
肽 、 肽 键 、 氨 基 酸 和 小 有 机 化 合 物 的 晶体 几何 结构 的 氧 键 经 验 数据 得 到 的 


Enp = E, X Et X Ep 


其 中 FE, 是 氢 键 的 长 度 , 及 和 Ep 是 方向 的 参数 . 距离 项 是 函数 


ally. Saba 2, 


Hr = ot 


其 中 C = -3Epr®kcalA®/mol, D = —4Emr®, kcalA®/mol. r 是 提供 电子 和 接受 电 
子 的 原子 之 间 的 距离 . Em Mrm 分 别 是 优化 氨 键 能 和 键 长 . WH ER ER a 
键 N—H—O, E,, = 一 2.8kcal/mol rm = 3.0A. 方向 的 参数 项 及 和 Ep 分 别 为 


E, = cos* p 
和 
(0.9 二 0.1sin 2t;) costo, 0<t; < 90° 
k= ky (Ko — cos? t:)° costo, 90° < F< Me 
0, i; > 1 


其 中 K = 0.9/cos® 110°, Kz = cos? 110°, 如 分 别 是 氧 原子 与 氧 原子 的 连 线 与 这 条 
连 线 到 它们 在 肽 平面 上 射影 的 角度 , t; 是 这 个 射影 与 碳 氧 双 键 的 夹 角 (图 7-2). 为 
了 修正 数据 的 噪声 , 另外 一 个 能 量 函 数 的 限制 为 


一 
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7-2 POF + RHA (YAR: Dmitrij Frishman 和 Patrick Argos, 1995) 


72.2.2 a 螺旋 和 BR ARE 
以 拉 式 图 中 的 20° x 20° 2a iL a HS RET A, 在 第 ; 个 区 域 的 


a 螺旋 和 8 折 和 县 残 基 的 扭曲 角度 的 概率 为 
NP ane 。 家 
mea} 机 未 一 180"” < 了 < 10°, —120°< $< 45 
0, 其 他 
以 及 


total? 
Ni 


0, 其 他 


其 中 Ne 和 No 分 别 是 在 给 定 的 p 和 水 区 域 定 义 为 a 螺旋 和 8 PHBH REE, 
Ntetal 是 指 区 域 ; 内 发 生 了 角度 扭曲 的 残 基 总 数量 . 在 广泛 接受 的 a 螺旋 和 8 折 
BKM, Pr WR PP HE. 

7.2.2.3 ”二 级 结构 的 识别 

STRIDE 算法 定义 最 小 的 a 螺旋 应 该 在 残 基 上 和 大 十 4 之 间 包 括 至 少 两 个 连 
续 的 氧 键 , 有 


NP 
| SES gn —180°<y<0°, —180°< 6 <—120°, 45° < & < 180° 


Pe + Pe 
a * (1 +We+We. “iets | mip 


如 果 在 残 基 对 (kk +4) Al (k4+1,4+5) ZINA MELABAR TIXPARE, 那 
么 中 间 的 四 个 残 基 确定 为 a 螺旋 H. 如 果 边 缘 的 残 基 上 Ak +5 分 别 满 足下 面 附 
RA: 
Pe < TTP ees < Is 
MAIR ETE o 螺旋 中 . ERAS, Pe. Pt... P&.. Pe.3. Pe, 和 
Pe, 分 别 是 残 基 上 十 1、 上 十 2 大 十 3 十 4 和 K 十 5 的 扭曲 角度 概率 . we 
AWE WR Te. TS ATS 分 别 是 经 验 权重 和 优化 阔 值 . 
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STRIDE 算法 定义 最 小 的 6 折合 为 两 个 连续 的 氨 键 桥 . 氢 键 桥 的 稳定 性 决定 
于 6 折 二 中 内 部 残 基 的 内 在 平均 统计 学 倾向 以 及 由 这 种 倾向 决定 的 两 个 键 之 间 氧 
键 的 强度 . 内 部 残 基 指 的 是 那些 通过 主 链 痰 基 和 肽 平面 上 的 氢 键 参与 形成 两 个 氧 键 
或 侧面 参与 任 一 氨 键 的 两 个 残 基 . 因为 8 折 有 登 的 边缘 上 主 链 方向 的 变化 常常 很 大 ， 
所 以 后 面 的 构 型 就 没有 考虑 进去 . 这 会 使 得 至 少 在 N 端 折 登 边缘 的 角度 Po 以 及 在 
C nat BAHN ARE 6 落 在 拉 式 图 的 8 BK BS. 相应 地 , 8 桥 涉 及 的 两 个 
氨 键 必须 满足 下 面条 件 PO: 


| Envi , aa we cri wy wares = (yee! 


Enp2 (1+ we 于 TY CONF antiparallel < Tl ea 


对 于 平行 的 8 桥 有 


Bie VX we 23 ws - CONF parallel |) < Tee 


其 中 Epo 和 Enno 分 别 是 第 一 和 第 二 氧 键 , 并 且 


CONF = Pinta 5 Pinta 
如 果 内 部 残 基 出 现在 8 桥 的 两 端 或 CONF = P?,, WRRA-REERE 8 桥 
的 内 部 . We 和 We 是 需要 优化 的 经 验 权重 . 

如 果 符 合 上 述 标准 的 相 邻 桥 结合 形成 反 平 行 或 平行 的 8 TE, 那么 在 一 个 折 
登 股 的 两 个 桥 之 间 不 超过 4 个 插入 的 残 基 , 在 另 一 个 折 登 股 不 超过 一 个 插入 残 基 . 
如 果 在 毗邻 的 桥 之 间 所 有 的 残 基 以 及 在 它们 之 间 可 能 带 有 的 突起 ,那么 都 可 以 认 
为 是 6 BND BRA “EE”. 对 于 那些 没有 与 其 他 桥 结合 在 一 起 的 孤独 8 桥 称 作 
“B”, 

Dmitrij Frishman 和 Patrick Argos 对 于 其 他 二 级 结构 没有 特别 定义 , 而 是 使 用 
了 其 他 已 经 定义 了 的 二 级 结构 1, 

与 DSSP 数据 库 定义 二 级 结构 的 方法 一 样 ，STRIDE 方法 认为 一 个 基本 的 a 
螺旋 单位 至 少 包含 两 个 连续 的 残 基 ; 到 残 基 ;+ 4 Wale. 与 DSSP 不 同 的 是 ,如 ， 
果 螺 旋 两 端的 残 基 有 可 以 合适 的 O-) 角度 的 话 , STRIDE 就 会 把 螺旋 末端 的 一 个 
或 两 个 末端 残 基 都 包含 在 螺旋 内 . 同样 , 如 果 O-v 角度 不 合适 , 在 DSSP 中 定义 的 | 
短 的 a 螺旋 可 以 被 否定 . 也 就 是 说 如 果 6- 水 角度 不 合适 , 由 氧 键 模式 定义 的 螺旋 
结构 可 能 被 否定 . 那么 可 以 认为 STRIDE 的 螺旋 由 氢 键 和 5 角度 共同 定义 . 在 
STRIDE 的 定义 中 , 6 折 和 县 的 类 别 不 区 分 平行 与 反 平 行 . 最 小 折 登 可 以 由 两 个 残 基 
构成 , 这 两 个 残 基 都 保持 5 个 可 能 的 氨 键 构 型 之 一 . 同样 , 8 折 登 也 是 由 氧 键 和 更 沙 
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角度 共同 定义 的 . 突起 的 定义 与 DSSP 的 定义 相同 . 310 螺旋 和 a 螺旋 与 DSSP 的 
定义 一 样 , 不 同 的 是 使 用 了 经 验 的 氢 键 标准 . 转弯 根据 残 基 ;十 1 和 1 十 2 的 更 消 
角度 定义 3 . 


7.2.3 DEFINE 算法 对 于 蛋白 质 二 级 结构 的 定义 


算法 DEFINE 由 Richards 和 Kundrot 设计 , 该 算法 依据 与 理想 二 级 结构 的 
线性 距离 矩阵 中 C。 原 子 之 间距 离 的 坐标 匹配 来 确定 待 求 蛋白 质 的 二 级 结构 [83]. 
DEFINE 方法 在 确定 一 个 氨基 酸 序列 的 二 级 结构 过 程 中 , 首先 得 到 这 个 氨基 酸 序列 
主 链 分 子 之 间 的 相对 距离 矩阵 , 然后 找到 这 个 矩阵 中 与 标准 分 子 之 间距 离 矩阵 严格 
的 匹配 部 分 , 最 后 拓展 这 个 匹配 的 部 分 , 把 不 太 严 格 的 匹配 加 入 其 中 . 这 种 算法 可 
以 确定 a 螺旋 、8 HB. HSA OC lie. 

DEFINE 算法 使 用 了 由 a 碳 原子 坐标 计算 的 原子 间距 离 预测 蛋白 质 二 级 结构 ， 
得 到 的 结果 同 视觉 直观 判断 的 结构 非常 吻合 83， 原 子 中 心 之 间 的 距离 矩阵 提供 
了 描述 结构 的 笛 卡 儿 坐 标 . 在 这 种 公式 中 , 一 个 由 六 个 原子 组 成 的 结构 可 以 产生 
N x N 和 矩阵, 这 个 矩阵 的 元 素 (i, 力 , 指 的 是 原子 ; 和 原子 7 之 间 的 距离 . 

DEFINE 算法 中 使 用 的 距离 矩阵 只 涉及 Ca。 原子 之 间 的 距离 (图 7-3), 在 主 链 
的 N 端的 C。 原子 在 抢 阵 的 左上 角 . 以 这 个 Ca 原子 为 原点 , 计算 其 他 Ca。 原子 与 
这 个 C。 原 子 之 间 的 距离 形成 了 距离 矩阵 ， 两 个 毗邻 残 基 侧 链 之 间 的 距离 构成 另 
外 一 个 矩形 子 和 矩阵 , 这 些 子 和 矩阵 称 为 “盒子 >. Cai 和 Ca; 之 间 的 距离 简化 为 (i 妃 . 
理想 结构 中 的 两 个 原子 之 间 的 距离 形成 的 子 和 矩阵 的 元 素 称 为 “面具 ”. 


C 
(s)- . 
= 
Ba Ge. 
A ot 
cla 
\ 


‘ 


图 7-3 Ca 原子 之 间 相 对 距离 (YEA: Claus Andersen 和 Burkhard Rost, 2002) 


DEFINE 算法 使 用 蛋白 质 结构 主 链 的 Ca 原子 之 间距 离 矩阵 的 方法 定义 二 级 
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结构 因子 . 该 算法 认为 两 个 连续 的 Co. 原子 (i,i+1) 之 间 的 距离 依赖 于 两 个 相互 
干涉 的 主 链 构象 角度 . 然而 由 于 肽 键 平面 构象 的 限制 , 实际 上 (2,2 +1) 之 间 的 距离 
取 值 范围 很 罕 . 因为 《4 — 1, 7,2 + 1) 的 角度 基本 固定 , (: +2) 之 间 的 距离 的 取 值 范 
FR. 为 了 把 握 主 要 因素 , 实际 计算 两 个 原子 之 间 的 距离 时 忽略 一 些 实验 中 的 
错误 . (i++1) 之 间 的 距离 为 (3.75 土 0.02)A, 对 于 转移 肽 键 来 说 (ii 十 2) 之 间 的 距 
BEA (5.9+0.6)A. 这 样 主 链 构象 的 二 级 结构 特征 出 现在 第 三 个 位 置 (2; 上 + 3) 上 , 其 
中 a 螺旋 的 (ii +3) 距离 是 5.0 A, 6 BRN (ii 二 3) 约 为 9.9 A. 

蛋白 质 中 的 顺势 肽 键 很 少 , 但 是 这 种 构象 确实 存在 , TY ARABIA 
物 团 . 在 顺势 肽 键 中 (ii 十 1) 距离 大 约 为 2.9 A, 因此 距离 (2.9 二 0.2) 人 标记 为 顺势 
肽 键 . 

在 所 有 和 蛋白质 二 级 结构 中 , 螺旋 最 具 刚 性 、 在 空间 上 最 容易 定义 . 表 7-1 给 出 
JHA L 个 残 基 的 理想 距离 子 矩 阵 ， 该 矩阵 由 螺旋 中 的 C。 原 子 之 间 的 距离 构 
成 , 其 中 第 一 行 表 示 的 距离 为 从 (让 到 (4, + L-1). 下 一 行 的 元 素 表示 的 距离 为 
(¢+1,i+1) B G4+1,1+L0—-2). 原则 上 , 螺旋 的 长 度 没 有 限制 . 但 该 算法 限制 螺旋 
的 长 度 为 50. 


表 7-1 ”二 级 结构 距离 参考 值 ( 源 自 : Frederic M. Richards Craig E. Kundrot, 1988) _ 


DATA ALPHA/ 

1). 6.00, "9.75, > 5.86; © -5.02, 6.11)" 8°53, | “oes, ties oie: 
2 15:15, © 16.32, -'18.19, 19.77, © 20.85, . 22.98,’ 2413," (95.40/50 Eguraeeee-com 
3 30.01, 31.27, 32.65, 34.35, 35.84, 37.11, 38.64, 40.30, 41.67, 43.06, 
4 44.64, 46.20, 47.52, 48.97, 50:61, 52.07, 53.41, 54.95, 56.55, 57.93, 
5 59.33, 60.93, 62.45, 63.81, 65.29, 66.89, 68.33, 69.72, 71.27,  72.82/ 


DATA BETA/ 0.00, 3.75, 6.47, 9.89, 12.94, 


1 16:28; 19.40, 22:72, 25.87, 29.17, 
2 32.34, 35.62, 38.81, 42.09, 45.28, 
3 48.55, 51.74, 55.01, 58.21, 61.48/ 


DATA TURN/ 0.00, . 0.00, 0.00, 3.70, 0.00, 


1 0.00, 5.60, 3.70, 0.00, 5.00, 
2 5.10, 3.70, 5.40, 6.90, 6.10/ 
DATA BB/ 4.95, 6.20, 8.45, 11.45, 14.55, 
1 17.65, 20.90, 24.15, 27.45, 30.65, 
2 34.00, 37.25, 40.55/ 

DATA A310/ 


1 —0.042, —1.388, 1.834, 1.472, —1.616, —1.673, 3.013, 1.872, —1.334, 
2 4.464, 1.004, 2.097, 5.939, —2.228, 0.679, 7.427, —0.325, —2°287, 
3 8.917, 2.295, 0.069, 10.402, —0.459, 2.268, 11.884, —2.174, —0.812, 
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续 表 
DATA A310/ 
13.360, 1.146, —2.011, 14.844, 1.792, 1.456, 16.334, —1.730, 1.525, 
17.815, —1.221, —1.965, 19.289, 2.143, —0.899, 20.777, 0.548, 2.244, 
22.266, —2.289, 0.155, 23.743, 0.238, —2.309, 25.222, 2.260, 0.581, 
26.712, —0.916, 2.104, 28.197, —1.898, —1.281, 29.673, 1.605, —1.704, 
31.158, 1.456, 1.818, 32.647, —1.992, 1.096, 34.126, —0.717, —2.193, 
35.607, 2.325, —0.409, 37.096, 0.079, 2.304, 38.572, —2.247, —0.349, 
40.053, 0.737, —2.226, 41.558, 2.124, 1.009, 43.051, —1.299, 1.839, 
44.986, —0.755, —1.696, 46.921, 1.843, 0.220, 48.857, —1.132, 1.471, 
50.792, —0.684, —1.726, 52.728, 1.833, 0.295, 54.663, —1.192, 1.424, 


Go 本 CON HDT 


心 


56.598, —0.613, —1.752, 58.534, 1.819, 0.370, 60.469, —1.249, 1.378, 
5 62.404, —0.541, —1.776, 64.340, 1.803, 0.444, 66.275, —1.304, 1.321, 
6 68.210, —0.467, —1.797, 70.146, 1.783, 0.518, 72.081, —1.357, 1.266, 
7 74.017, —0.393, —1.814, 75.952, 1.760, 0.591, 77.887, —1.408, 1.210, 
8 79.823, —0.318, —1.829, 81.758, 1.734, 0.662,/ 


在 形成 矩阵 的 过 程 中 , 首先 检测 a 螺旋 的 位 置 . 每 个 转弯 处 的 Cu 都 认为 是 一 
个 可 能 的 N 端 原子 . 一 个 螺旋 从 一 个 给 定 的 原子 Cu; 增长 . SHAR i 的 方向 
在 距离 矩阵 中 每 次 移动 一 步 . Coj 原子 是 C 端的 原子 . 潜在 螺旋 中 所 有 的 距离 都 在 
三 角 (i,1). (1,7) 和 (77) PAW. 沿 着 右手 垂直 线 方向 (7) 和 (77) 描述 Cj 到 
前 面 的 所 有 o 螺旋 中 原子 之 间 的 距离 . 这 些 距离 与 理想 a 螺旋 面具 中 相应 位 置 的 
距离 比较 , 如 果 浆 值 发 生 超 越 , 螺旋 中 止 . 

长 于 4 个 残 基 的 片段 在 允许 的 积累 误差 限制 范围 内 (e = 1 A), 那么 它 就 是 a 
螺旋 . 然后 需要 检测 a 螺旋 的 开始 与 结尾 处 是 否 是 310 螺旋 , 310 螺旋 和 r 螺旋 不 
用 进行 这 种 检测 . 

转弯 的 Cy 距离 矩阵 中 的 元 素 比 螺旋 和 折 礁 的 Cu 距离 矩阵 中 的 元 素 的 阔 值 分 
布 范围 小 得 多 . 表 中 列 出 了 组 成 距离 矩阵 的 5 个 Ca RAF (i, 41,14 2,143,144) 
之 间 的 距离 的 “面具 ”[83]. 

为 了 把 8 eit A PAN, 作者 使 用 了 理想 的 折 码 线性 距离 矩阵 . 由 于 
从 定义 中 删除 了 非 刚性 折 和 县 , 折 和 县 主 链 的 柔性 和 较 大 折 受 的 曲率 问题 得 到 了 解决 . 
最 小 长 度 的 折 县 至 少 包括 4 个 残 基 . 根据 Pauling 的 定义 , 在 8 HS PRR 
要 和 另 一 个 股 配对 来 形成 一 个 折 私 [sl. 

8 折 和 登 构象 的 变化 比 a 螺旋 要 大 , 即便 在 一 个 折 和 又 股 中 下 的 角度 分 布 也 很 
宽 . 反 平 行 的 8 折 县 中 的 片段 比 平行 的 6 折 释 中 氨基 酸 残 基 更 加 舒展 一 些 . 平行 
的 6S C。 原子 距离 矩阵 显示 在 表 中 . 

9 回旋 比 紧 密 环 长 度 短 些 , 这 种 二 级 结构 比 其 他 二 级 结构 更 加 不 规则 、 更 加 富 
于 变化 . O 回旋 的 长 度 一 般 为 6~16 个 残 基 . 任何 长 度 的 Q 回旋 两 段 的 距离 小 于 
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10A, 这 个 距离 小 于 转弯 两 段 距 离 的 2/3. 
7.2.4 P-Cruve 方法 


P-Curve 18 A Gao} JL fel 4 SE BE BE ETT RAAT 41. 他 们 在 
固定 了 一 系列 肽 平面 的 固定 轴 系 统 的 基础 上 计算 了 螺旋 轴 ,， 通过 Motif 匹配 可 以 
确认 二 级 结构 , 其 中 Motif 中 的 参数 是 使 用 微分 几何 方法 得 到 的 两 个 肽 平面 之 间 的 
倾斜 、 转 动 和 扭曲 的 螺旋 系统 的 半径 等 一 系列 参数 . 这 个 参数 分 析 主 要 使 用 了 C。 
坐标 来 完成 的 . 因为 使 用 了 不 同 的 参数 , P-Curve 确认 二 级 结构 的 方法 与 至 炒 角度 
或 氢 键 的 分 析 方 法 很 不 一 样 , 匹配 P-Curve 的 Motif 自由 度 与 匹配 DEEINE 的 线 
性 距离 掩 码 的 自由 度 也 大 不 一 样 . 例如 , 当 DEFINE 的 线性 距离 “面具 ”无 法 确认 
孤立 的 GB 股 , 而 使 用 局 部 P-Curve 参数 就 能 很 好 地 确认 (941, 

定义 螺旋 结构 的 第 一 步 是 选择 结构 重复 结构 .然后 确定 每 一 个 重复 结构 用 于 
定义 该 结构 空间 位 置 相对 固定 的 坐标 系统 . 这 个 坐标 系统 的 中 心 就 是 肽 键 平 面 的 
中 点 , 坐标 轴 是 人 为 指定 的 垂直 向 量 单 位 (J, K, L)(Al 7-4). 第 一 个 向 量 是 在 方向 
N—C 上 的 肽 键 向 量 7 . 工 位 于 肽 键 平面 上 , WAAR. K 是 垂直 于 肽 平面 的 
向 量 , 它 由 向 量 的 乘积 J x 工 定义 . 


图 7-4 肽 平面 的 坐标 系统 (J, K, L)(YA: Heinz Sklenar et al., 1989) 


每 一 个 重复 因子 的 位 置 可 以 由 这 个 局 部 坐标 系统 确定 ， 确 定 坐标 系统 需要 四 
个 变量 , 其 中 包括 两 个 平移 变量 , 两 个 旋转 变量 (图 7-5). 定义 坐标 系统 的 中 心 为 点 
P, 三 个 螺旋 轴 为 UL VA W. 把 坐标 系统 和 肽 平面 的 固定 轴 联 系 起 来 的 两 个 向 
量 V 和 人 三 称 作 X RRA Y 变换 . 肽 系统 的 转动 位 置 由 一 个 右手 转动 项 通过 古 
FAs AATF OV 的 向 量 “ 倾 度 ” 和 另 一 个 右手 转动 项 围绕 肽 系统 的 “倾斜 " 共同 取得 . 


7.2 ”蛋白质 二 级 结构 定义 BF + 


a 
7 到 | Inclinotion 


Al 7-5 ”螺旋 参数 的 定义 (UREA: Heinz Sklenar et al., 1989) 
为 了 描述 一 个 单独 的 螺旋 构 型 (a 螺旋 或 6 BE) 需要 增加 一 个 平移 变量 和 一 


个 旋转 变量 . 这 两 个 额外 增加 的 变量 对 应 于 沿 着 螺旋 轴 习 的 连续 重复 结构 ( 称 作 
“增加 ”) 以 及 它们 绕 着 这 个 轴 的 相对 的 右手 旋转 ( 称 作 “扭曲 ”). 
上 面 定 义 的 系统 由 坐标 轴 系 统 J 开 工 和 一 个 参照 点 E 以 及 具备 螺旋 坐标 轴 系 
统 UVW 和 一 个 参照 点 尸 构成 . 这 两 个 系统 由 螺旋 变量 X 变换 和 了 变换 以 及 倾 
度 和 倾斜 联系 在 一 起 . 实际 上 , 蛋白 质 的 原子 坐标 可 以 知道 , 所 以 JJ 开 工 轴 系 统 是 
在 空间 中 是 固定 的 , 那么 找到 局 部 螺旋 轴 系 统 UV W 的 优化 位 置 和 方向 是 关键 问 
题 . 
这 个 目标 可 以 由 一 个 公式 化 函数 完成 , 首先 定量 化 两 个 连续 肽 平面 螺旋 参数 的 
不 规则 性 , 其 次 定量 化 两 个 连续 局 部 螺旋 轴 的 中 断 位置 . 第 一 个 目标 可 以 由 描述 相 
对 于 具备 螺旋 坐标 系统 的 肽 平面 连续 位 置 变化 的 项 的 和 表示 . 这 些 项 涉及 计算 具 
备 坐 标 轴 系 统 Cr 和 向 量 PE 的 投影 的 差异 . 它们 的 射影 分 别 定义 如 下 : 
D= (UTX: 本 全 
XeJ,K,L 


以 及 
Ci = 区 > [(P; 一 E;)* Ke (Ra By)" Xi-1] 
XeJ,K,L 
令 
人 
i=2N 
42= 2， Gi 


1=2N 


为 了 处 理 两 个 连续 局 部 螺旋 坐标 的 变型 ,需要 用 来 比较 它们 向 量 方向 的 项 


By 三 ba) (eet Ore 
i=2N 
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如 果 定义 两 个 连续 螺旋 坐标 的 平均 单位 向 量 为 
(G;) = (O44 U,-1)/ |Ui + Gin 
两 个 连续 已 点 之 间 的 向 量 为 
S=Pi— Ply 
那么 可 以 计算 侧面 的 错位 点 、 并 且 垂直 于 中 间 平 面 轴 的 向 量 


Q; = $;— (Ui) (75i 


B=. Gi; 


i=2N 
为 了 取得 函数 转动 项 (41, Bi) 和 平 动 项 (4>, Bo) 的 权重 平衡 , 必须 把 包含 在 
前 面 项 中 的 转动 角度 乘 以 聚合 体 连续 单位 平均 分 离 距离 . 也 就 是 说 A, 和 By 应 该 
乘 以 这 个 距离 的 平方 . 权重 取 6, 相应 的 平均 分 离 距 离 大 体 上 为 2.5A. 
最 小 化 的 函数 完整 的 表达 式 为 
F (h) = 6(A; + Bi) + Ag + Bo 


由 字母 h 表示 函数 的 变量 在 每 一 个 股 中 的 肽 键 中 仅仅 包含 4 个 螺旋 变量 (X 置 
换 、Y 置换 、 倾 度 和 倾斜 ). F (h) 的 每 一 项 应 该 选择 以 便 能 使 沿 着 N 端 到 C 端 或 
者 相反 的 方向 得 到 恒 等 的 和 . 为 了 使 函数 F (h) 快速 的 收敛 , 首先 计算 每 个 肽 键 螺 
旋 变 量 的 微分 . 

最 后 , 要 考虑 在 一 般 情 况 下 的 每 个 肽 内 部 的 函数 的 定义 . 在 这 种 情况 下 , 前 面 
给 出 的 上 升 和 扭曲 的 简单 定义 不 再 使 用 ， 必 须 考虑 的 是 两 个 螺旋 轴 的 相对 空间 位 
置 . 定义 两 个 螺旋 轴 的 相对 空间 位 置 使 用 平均 的 轴 系 统 (以 点 9 为 中 心 的 md, f). 
这 个 系统 由 下 面 的 等 式 定义 : 


上 面 函 数 的 最 后 一 项 为 


(ear) 

aaa a eae 

wily i) 

~~ |U,+ 04-1] 

Ales (Vi-1 + Vi) 

~ |Vi-1 + Vil 

Ig —n(n*g)] 

lg—n(n*g)| 

faa 

向量 U 与 平均 平面 的 交集 (垂直 于 n) 为 

| [n™ che Pixi)| 
ntU;_1 
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Pea = Byer 


ee er 


i ct a i — a AES 
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WR 
p, =p, Ui Lad ifs q)| 
SU TT LABIA AAR ERR HN I Rt Pas d 和 f 轴 
的 平移 变量 为 
轴 X 置换 = d (P; — p;_1) 
a Y BR = i (p; 一 Pi_1) 
简单 来 说 , 两 个 类 似 于 倾 度 和 倾斜 的 转动 变量 定义 为 
轴 倾 度 = 2arccos (7 如 果 dr (fxt)>0, MAG>0 
Bh = 2arccos (>IUi) ， WR (rxU;)>0, PAy>0 


(U;xd)  _(dxt) 
al ld xt: 


下 面 介 绍 三 个 辅助 参数 .这 些 参数 衡量 形成 于 两 个 连续 螺旋 轴 癌 量 间 的 网 格 
角度 ( 轴 的 弯曲 , Ad = arccos(U}_,U;)), 网 格 的 两 个 连续 P 点 间 的 侧面 断层 ( 轴 晰 
层 , Ad = \/(Ao? + 4y2)), 两 个 连续 P 点 间 的 距离 (路 径 长 度 , 路 径 =|P; — 已 -1|). 

下 面 定义 一 些 解释 肽 键 交 会 点 的 通用 参数 , 三 个 平移 参数 


平移 =dz (i) + Ax — dz (i — 1) 


I) = dy (i) + Ay — dy (i —1) 
= |p,_, — Pi-1 + |Pi —p;|| 

和 三 个 转动 参数 

{AR = y (i) + na —n (i -1) 

RRB) = 6 (i) + 04 —9(i—1) 

扭曲 = +arccos (wis) + arccos (W He if”) 
其 中 ft 和 三 向 量 分 别 由 向 量 三 绕 d 点 转动 OE gy OF 得 到 的 . 如 果 
U} (ft x Wi) > 0, 那么 第 一 项 的 扭曲 为 正 . 如 果 UL (f- x Wi-1) <0, 那么 第 
二 项 为 正 . 
这 些 参数 可 以 分 成 三 类 : O 肽 轴 参 数 ; © 肽 键 内 部 参数 ; @@) 轴 倾 斜 参 数 . 


7.3 各 白质 二 级 结构 预测 
7.3.1 “概述 
蛋白 质 二 级 结构 预测 是 世界 性 难题 , 人 们 已 经 尝试 使 用 了 很 多 方法 进行 蛋白 质 


a. 第 7 章 蛋白 质 二 级 结构 预测 


结构 的 预测 研究 . 然而 这 些 预测 方法 所 达到 的 预测 准确 率 一 般 不 超过 77%%. 所 
aa 仓 分 析 方 法 和 统计 知识 方法 两 类 , 从 时 间 上 来 说 大 体 可 以 分 
为 三 代 . 理论 分 析 方 法 其 实 就 是 从 头 预 测 方法 , 主要 是 从 假设 或 理论 计算 (如 分 子 
力学 、 分 子 动力 学 计算 ) 出 发 来 预测 蛋白 质 的 结构 . 该 类 方法 假设 折 登 后 的 蛋白 质 
取 能 量 最 低 的 构象 95). 统计 知识 方法 主要 是 从 观察 和 总 结 已 知 蛋 白质 结构 的 统计 
规律 出 发 来 预测 未 知 蛋 白质 的 结构 .该 类 方法 对 已 知 结构 的 蛋白质 进行 统计 分 析 ， 
建立 序列 到 结构 的 、 定 性 的 或 定量 的 映射 模型 , 进而 对 未 知 结构 的 各 白质 根据 映射 
模型 直接 从 氨基 酸 序列 预测 结构 .这 一 类 方法 包括 经 验 性 方法 、 结 构 规律 提取 方 
法 、 同 源 模型 方法 等 99. 经 验 性 方法 对 已 知 结构 的 蛋白 质 (如 蛋白 质 结构 数据 库 
PDB、 蛋 白质 二 级 结构 数据 库 DSSP 中 的 和 蛋白质) 进行 统计 分 析 , 发 现 各 种 氨基 酸 
形成 不 同 二 级 结构 的 倾向 , 形成 一 系列 关于 二 级 结构 预测 的 规则 . 结构 规律 提取 方 
法 从 蛋白质 结构 数据 库 中 提取 关于 蛋白 质 结构 形成 的 一 般 性 规则 , 指导 建立 未 知 结 
构 的 蛋白 质 的 模型 . 同 源 建 模 方 法 通过 同 源 序列 分 析 或 模式 匹配 预测 蛋白 质 的 空 
间 结 构 . 其 原理 基于 下 述 假设 : 每 一 个 自然 蛋白 质 具有 一 个 特定 的 结构 , 但 许多 不 
同 的 序列 会 采用 同一 个 基本 的 折 登 , 即 具 有 相似 序列 的 和 蛋白质 倾 向 于 折合 成 相似 的 
空间 结构 . 如 果 未 知 结构 的 蛋白 质 与 已 知 结构 的 和 蛋白质 具有 足够 的 序列 相似 性 , 那 
么 根据 相似 性 原理 可 以 给 未 知 结构 的 蛋白 质 构造 近似 的 三 维 模型 . 它 是 现在 蛋白 
质 结构 预测 中 最 可 靠 的 方法 55. 

和 蛋白质 二 级 结构 预测 大 体 可 以 分 为 三 代 . 第 一 代 预 测 方法 是 基于 单个 氨基 酸 残 
基 统 计 分 析 , 该 法 以 有 限 数据 集中 各 种 残 基 形 成 特定 二 级 结构 的 倾向 作为 预测 的 依 
据 . 第 二 代 方 法 是 基于 氮 基 酸 片段 的 统计 分 析 (片段 长 度 通常 为 11 一 21), 片段 体 
现 了 中 心 残 基 所 处 的 环境 . 在 预测 中 心 残 基 的 二 级 结构 时 , 以 残 基 在 特定 环境 形成 
特定 二 级 结构 的 倾向 作为 预测 依据 . | 

第 一 代 方 法 的 代表 是 Chou-Fasman 方法 与 GOR AYE. Chou-Fasman 方法 是 
单 序 列 预测 方法 中 的 一 种 ， 它 是 使 用 氨基 酸 物理 化 学 数据 中 派生 出 来 的 规律 来 预 
测 二 级 结构 .首先 统计 出 20 种 氨基 酸 出 现在 a 螺旋 、8 BATCH SS 
现 频率 的 大 小 , 然后 计算 出 每 一 种 氨基 酸 在 这 几 种 构象 中 的 构象 参数 Pr. 构象 参 
数值 的 大 小 反映 了 该 种 残 基 出 现在 某 种 构象 中 的 倾向 性 的 大 小 . 按照 构象 参数 值 
的 大 小 可 以 把 氨基 酸 分 为 六 个 组 : Ha (GREATER). ha( 螺旋 形成 者 ) [a( $5 RR 
旋 形 成 者 ) ia BRITE RAUB). ba BRE PITA). Ba GRRE TT). Chou 和 
Fasman 根据 残 基 的 倾向 性 因子 提出 二 级 结构 预测 的 经 验 规则 , 要 点 是 沿 蛋白 质 序 
列 寻找 二 级 结构 的 成 核 位 点 和 终止 位 点 . 这 种 方法 可 能 能 够 正确 反映 蛋白 质 二 级 
结构 的 形成 过 程 , 但 预测 成 功率 并 不 高 , WA 50% 左 右 . 

GOR 算法 也 是 单 序列 预测 方法 中 的 一 种 , 因 其 作者 Garnier, Osguthorpe 和 


Robson 而 得 名 . 这 种 方法 是 以 信息 论 为 基础 的 , 也 属于 统计 学 方法 的 一 种 . GOR | 
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方法 不 仅 考虑 被 预测 位 置 本 身 氨基 酸 残 基 种 类 对 该 位 置 构象 的 影响 ,也 考虑 到 相 
邻 残 基 种 类 对 该 位 置 构象 的 影响 . 这 样 使 预测 的 成 功率 提高 到 65% 左右 . GOR 方 
法 的 优点 是 物理 意义 清楚 明确 , 数学 表达 严格 , 而 且 很 容易 写 出 相应 的 计算 机 程序 ， 
但 缺点 是 表达 式 复杂 . 

第 二 代 预 测 方法 可 以 归 为 如 下 几 类 : 

(1) 基于 统计 信息 的 方法 ; 

(2) 基于 物理 化 学 性 质 的 方法 ; 

(3) 基于 序列 模式 的 方法 ; 

(4) 基于 多 层 神经 网 络 的 方法 ; 

(5) 基于 图 论 的 方法 ; 

(6) 基于 多 元 统计 的 方法 ; 

(7) 基于 机 器 学 习 的 专家 规则 的 方法 . 

最 邻近 算法 

第 一 代 和 第 二 代 方 法 都 以 蛋白 质 序列 的 局 部 信息 作为 预测 的 基础 , 预测 的 准确 
率 不 高 . 第 二 代 方 法 的 代表 主要 包括 多 序列 列 线 预 测 方法 和 神经 网 络 方法 

多 序列 列 线 预测 首先 对 序列 进行 多 序列 比 对 , 并 利用 多 序列 比 对 的 信息 进行 结 
构 的 预测 . 调查 者 可 找到 和 未 知 序列 相似 的 序列 家 族 , 然后 假设 序列 家 族 中 的 同 源 
区 有 同样 的 二 级 结构 , 预测 不 是 基于 一 个 序列 而 是 一 组 序列 中 的 所 有 序列 的 一 致 序 
列 

反馈 式 神经 网 络 算法 是 目前 二 级 结构 预测 应 用 最 广 的 神经 网 络 算法 , 它 通常 是 
由 三 层 相同 的 神经 元 构成 的 层 状 网 络 , 使 用 反馈 式 学 习 规则 , 底层 为 输入 层 , 中 间 
为 隐 含 层 , 顶层 是 输出 层 . 信号 在 相 邻 各 层 间 逐 层 传递, 不 相 邻 的 各 层 间 无 联系 , 在 
学 习 过 程 中 根据 输入 的 一 级 结构 和 二 级 结构 的 关系 的 信息 不 断 调整 各 单元 之 间 的 
权重 , 最 终 目 标 是 找到 一 种 好 的 输入 与 输出 的 映像 , 并 对 未 知 二 级 结构 的 蛋白 质 进 
行 预测 . 神经 网 络 方法 的 优点 是 应 用 方便 , 获得 结果 较 快 较 好 , 主要 缺点 是 没有 反 
映 蛋白 质 的 物理 和 化 学 特性 , 而 且 利用 大 量 的 可 调 参数 , 使 结果 不 易 理解 . 许多 预 
测 程序 如 PHD、PSIPRED 等 均 结合 利用 了 神经 网 络 的 计算 方法 . 

第 三 代 预 测 方法 运用 蛋白 质 序列 的 长 程 信息 和 蛋白 质 序列 的 进化 信息 , 使 二 级 
结构 预测 的 准确 程度 有 了 比较 大 的 提高 , 预测 结果 与 实验 观察 趋 于 一 致 . 这 些 方法 
的 代表 方法 有 基于 知识 的 方法 和 混合 方法 . 

基于 知识 的 预测 方法 根据 氨基 酸 残 基 的 物理 化 学 性 质 , 包括 疏水 性 、 亲 水 性 、 
带电 性 以 及 体积 大 小 等 , 并 考虑 残 基 之 间 的 相互 作用 而 制订 出 一 套 预 测 规则 . 它们 
的 基本 原理 大 体 为 : 疏水 性 残 基 决 定 了 二 级 结构 的 相对 位 置 , 螺旋 亚 单元 或 扩展 单 
元 是 结构 域 的 核心 , a 螺旋 和 8 折 登 组 成 了 结构 域 . 混合 方法 将 以 上 几 种 方法 选择 
性 的 混合 使 用 , 并 调整 他 们 之 间 使 用 的 权重 可 以 提高 预测 的 准确 率 . 
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蛋白 质 二 级 结构 预测 是 三 维 结构 预测 的 重要 组 成 部 分 . 二 级 结构 预测 的 结果 既 
可 以 应 用 于 进一步 预测 蛋白 质 的 高 级 结构 , 又 能 应 用 于 推测 蛋白 质 的 功能 . 科学 家 
已 经 尝试 了 很 多 方法 来 预测 蛋白 质 二 级 结构 , 这 些 方法 主要 包括 APSSP2、JPred、 
JUFO, PHD. PHDpsi, PROF_king. Prospect. PSIpred. SAM-T99sec. SCRATCH 
(SSpro3)、SSprol、SSpro2 以 及 SSpro4 等 方法 . 关于 这 些 方法 的 详细 信息 可 以 在 服 
务 器 http://cubic.bioc.columbia.edu/eva/secy/res_sec.html 上 找到 . 

随 着 计算 机 技术 的 快速 发 展 和 具有 很 强 计 算 能 力 的 计算 机 的 开发 , 使 得 强烈 依 
赖 计 算 机 计算 能 力 的 机 器 学 习 技 术 在 和 蛋白质 结构 预测 领域 得 到 应 用 . 2001 年 , 支持 
向 量 机 首次 被 应 用 于 蛋白 质 二 级 结构 预测 . 通过 对 非 同 源 蛋 白质 数据 集 CB513B7 
进行 训练 和 检测 , 使 得 总 的 以 残 基 为 单位 三 态 预 测 准确 率 (Qs) 达到 73.5%). 在 
2003 年 ，YANG 利用 SVM 方法 得 到 和 蛋白质 二 级 结构 预测 准确 率 Qa=75.2%[89. 
KIM 利用 SVMpsi 方法 使 预测 准确 率 Q@s=76.6%po0，GUO 在 2004 年 把 PST 
BLAST Profiles 引进 到 SVM 中 , 并 且 发 展 了 一 个 新 的 方法 称 为 双 层 SVMES4 Fil 
用 这 种 方法 也 取得 了 Qs=75.2 色 的 成 绩 . 


7.3.2 ”样本 集 的 选择 


随 着 PDB 等 主要 蛋白质 结 构 数据 库 中 的 蛋白 质 结构 资源 越 来 越 多 , 人 们 可 以 
选择 的 蛋白 质 二 级 结构 预测 的 样本 的 回旋 余地 也 越 来 越 大 . 虽然 折 县 过 程 可 能 需要 
辅助 分 子 的 参与 , 但 是 蛋白 质 三 维 结构 仅仅 由 它们 的 氨基 酸 序列 决定 的 假说 仍然 成 
立 [102] 利用 同 源 蛋 白质 来 预测 蛋白 质 二 级 结构 的 准确 率 要 比 利 用 非 同 源 蛋白 质 
的 准确 率 要 高 . 因此 , 在 蛋白 质 结构 预测 中 要 使 用 非 同 源 蛋 白质 . 对 于 蛋白 质 二 级 
结构 的 预测 来 说 , 选择 合适 的 训练 数据 集 至 关 重 要 . 目前 人 们 使 用 的 训练 数据 集 包 
括 很 多 个 , 我 们 只 使 用 了 RS126 和 CB513 两 个 训练 和 检测 样本 集 . 附 表 1 收集 了 
RS126 数据 集 的 所 有 蛋白 质 序 列 代码 , 附 表 2 收集 了 CB513 数据 集 的 所 有 蛋白 质 
序列 代码 . 


7.3.2.1 RS126 数据 集 


RS126 非 同 源 蛋白 质数 据 集 是 Burkhare Rost 和 Chris Sander 在 1993 年 给 出 
的 0) 他 们 根据 HSSPDo3] 定义 的 非 同 源 蛋白 质 的 条 件 , 在 当时 已 有 的 数据 库 中 
选择 了 126 条 非 同 源 蛋白 质 序 列 . HSSP 给 出 了 一 个 依赖 长 度 的 非 同 源 相 似 性 规 
WW, 即 对 于 长 度 超过 80 的 氨基 酸 序列 两 两 相对 同 源 性 要 小 于 25%. 这 种 方法 同时 
依赖 比 对 的 长 度 和 序列 的 组 分 . 通过 对 1992 年 PDB 数据 库 中 的 700 个 蛋白 质 的 
相互 比 对 , 从 中 选择 了 150 个 非 同 源 序 列 . 其 中 分 辨 率 小 于 2.5A 的 一 共有 130 个 ， 
其 中 包含 了 126 个 球状 蛋白 、4 MBA. 也 就 是 说 这 126 个 非 元 余 蛋 白质 中 长 度 
超过 80 个 残 基 的 任何 两 个 都 不 包含 超过 25% HAA ARSE. 这 130 个 蛋白 中 一 共 包 
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含 了 24 395 个 氨基 酸 残 基 , a 螺旋 占 32%. GBA 21%, C 卷曲 占 47%. 


7.3.2.2 CB513 数据 集 


然而 , 经 过 几 年 的 时 间 , 人 们 发 现 Burkhare Rost 和 Chris Sander 在 1993 年 给 
出 的 非 同 源 蛋 白质 序列 数据 集 需要 更 新 . 因为 首先 非 同 源 蛋 白质 的 定义 有 缺陷 , 另 
外 随 着 时 间 的 推移 人 们 已 经 解析 了 更 多 的 蛋白 质 的 空间 结构 . 因此 James A. Cuff 
和 Geoffrey J. Barton 在 1999 年 构造 了 CB513 非 同 源 蛋白 质数 据 集 . 到 目前 为 止 
的 几 年 时 间 里 , 人 们 还 没有 发 现 更 好 的 定义 非 同 源 蛋 白质 的 新 准则 , 因此 CB513 数 
据 集 还 应 用 于 蛋白质 二 级 结构 预测 的 实践 中 . 

对 于 RS126 数据 集 的 非 同 源 蛋白 质 的 定义 规则 中 , 通过 百分比 的 方法 不 能 很 
好 地 确定 序列 相似 性 , 特别 是 相似 性 低 于 30 包 的 序列 430. 这 个 非 元 余数 据 集中 的 
两 两 样本 相似 性 通过 以 下 方法 得 到 : 首先 通过 标准 动态 规划 算法 比 对 序列 A A B 
之 间 的 相似 性 , 得 到 一 个 V 的 分 值 . 其 次 随机 改变 每 一 条 蛋白 质 序 列 中 的 氨基 酸 的 
顺序 , 通过 标准 动态 规划 算法 进行 再 次 比 对 . 这 个 过 程 重 复 至 少 100 次 , 计算 每 次 
得 分 的 平均 值 去 和 标准 差 o. 再 次 计算 SD 分 值 : (V —2)/o. CB513 样本 集 通 过 
SD 得 分 确定 样本 . 所 有 样本 来 自 3Dee 结构 域 数 据 库 . 通过 SD 的 分 值 首 先 取 得 了 
1233 个 结构 域 . 然后 剔除 多 序列 结构 域 , 使 样本 集 的 容量 从 1233 减少 到 988. 最 后 
选取 通过 X 射线 衍射 实验 得 到 的 解析 度 大 于 2.5A 的 结构 域 554 个 , 称 作 CB554. 
为 了 证 明 CB554 结构 域 跟 RS126 数据 集 没 有 序列 同 源 性 , 合并 两 个 数据 集 , 并 通 
过 AMPS 的 blosum62 矩阵 的 AMPS 两 两 比较 数据 集中 的 序列 ,缺口 避 分 为 10. 
通过 比 对 , SD 分 值 大 于 等 于 5 认为 是 序列 相似 的 . 通过 这 种 比 对 方法 , RS126 中 
11 条 序列 、CB554 和 RS126 之 间 的 119 条 序列 以 及 CB554 中 的 21 条 序列 是 相似 
的 . 这 样 , CB554 中 有 140 条 序列 要 么 与 CB554 中 的 序列 相似 , BASH RS126 中 
的 序列 相似 . 由 于 其 中 三 条 序列 匹配 多 条 序列 , 那么 其 中 137 条 序列 与 其 他 的 序列 
是 相互 匹配 的 . 剔除 了 这 137 条 序列 以 后 CB554 中 剩 下 了 417 条 序列 , 这 417 条 
序列 之 间 不 相互 匹配 , 也 不 与 RS126 中 的 序列 匹配 . 这 417 条 序列 中 , 21 条 没有 完 
整 的 DSSP 定义 , 被 剔除 , 最 后 剩 下 了 396 个 蛋白 质 (CB396). RS126 中 11 条 序列 
与 其 他 的 序列 之 间 的 SD 分 值 大 于 5, 其 中 两 条 匹配 多 条 序列 , 所 以 提出 9 个 . 剩 下 
的 与 CB513 合并 得 到 CB513 非 元 余数 据 集 . 


7.3.3 ”二 级 结构 规 类 方法 


由 于 DSSP 数据 库 是 Wolfgang Kabsch 与 Christian Sander 根据 区 别 蛋白 质 
二 级 结构 的 需要 而 构造 的 , 所 以 我 们 使 用 了 该 数据 库 的 定义 方法 来 定义 我 们 实验 
中 的 二 级 结构 . 根据 DSSP 的 定义 , 实验 中 依据 DSSP 定义 的 方法 对 蛋白 质 二 级 
结构 规 类 方法 进行 规 类 . 根据 DSSP 的 定义 , 所 有 蛋白 质 二 级 结构 包括 8 FH: Hla 
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螺旋 )、G(3lo BABE). 、I(r 螺旋 )、E(8 Hr). BIG HF). TH). SSH) 以 及 -( 其 
他 结构 ). 这 8 种 二 级 结构 依据 以 下 规则 合并 为 3 类 二 级 结构 : H. G 和 IH (wR 
he), EEG) AB. T. S 和 - 一 C( 卷 曲 ), 并 且 进 行 以 下 调整 : EC 一 EE, 而 
ECE 一 CCC. 

实验 中 提取 了 具有 相同 二 级 结构 属性 的 连续 残 基 序 列 作 为 样本 集 的 元 素 , 并 且 
按 如 下 方法 确定 每 个 元 素 的 二 级 结构 类 型 : 连续 的 螺旋 序列 作为 螺旋 (A); 连续 的 
折 释 序列 作为 折 和 县 (E); 连续 的 无 规则 卷曲 序列 作为 卷曲 (C). 

例如 , CB513 数据 集中 的 1htrp-1-AS 的 一 级 结构 和 二 级 结构 分 别 为 
一 级 结构 : AVVKVPLKKFKSIRETMKEKGLLGEFLRTHK YDPAWK YRFGDL 
二 级 结构 : CCEEEEEEECCCHHHHHHHCCCHHHHHCCCCCCHHHHHCCCCC 


其 中 IRETMKE LGEFL 和 PAWKY 为 螺旋 , VKVPLKK ATS, AV. FKS. KGL, 
RTHKYD 和 RFGDL 为 卷曲 . 依据 上 述 规则 在 CB513 和 RS126 中 提取 的 每 种 二 
级 结构 类 型 元 素 的 数量 和 平均 长 度 显 示 在 表 7-2 中 . 


表 7-2 ”三 种 二 级 结构 的 样本 数量 和 平均 长 度 


CB513 RS126 
二 级 结构 类 别 


H 3083 9.4 813 91 
BE 3326 5.1 959 5.0 
C 5111 6.2 1418 6.4 


7.3.4 ”运用 支持 向 量 机 进行 蛋白 质 结 构 预 测 的 样本 提取 方法 与 编码 规则 


客观 地 比较 不 同方 法 的 结果 需要 使 用 相同 的 数据 集 (包括 相同 的 比 对 profiles) . 
相同 的 二 级 结构 定义 (包括 相同 的 压缩 方法 ) 和 相同 的 准确 率 评 佑 方法 ,否则 比较 
就 是 不 客观 的 (98). 蛋白质 结构 预测 的 样本 提取 方法 与 编码 规则 是 相互 紧密 相连 的 ， 
因为 SVM 要 求 所 有 的 输入 向 量 必须 在 一 个 输入 空间 内 , 而 向 量 在 一 个 输入 空间 内 
的 向 量 必须 维 数 相同 . 以 往 蛋 白质 结构 预测 中 使 用 的 蛋白 质 结构 预测 的 样本 提取 方 
法 与 编码 规则 大 体 分 为 两 类 : 四 氨基 酸 序列 组 分 方法 ; 氨基 酸 组 分 方法 以 滑 窗 方法 
为 基础 衍生 出 来 . Qn 肽 频数 方法 . 氨基 酸 组 分 方法 多 用 于 蛋白 质 二 级 结构 预测 样 
本 长 度 较 短 的 预测 中 . 这 类 方法 的 特点 是 一 定 要 求 氨基 酸 片段 的 长 度 相 同 .而 nan BK 
频数 方法 则 没有 这 个 限制 , n 肽 频数 方法 可 以 对 任意 长 度 的 氨基 酸 序列 进行 编码 得 
到 等 长 的 输入 向 量 . 

7.3.41 HAAR 

滑 窗 方法 给 出 了 一 个 ABER. 该 方法 的 目的 是 正确 预测 中 间 
氨基 酸 的 正确 二 级 结构 (4,98) 输入 向 量 由 一 个 氨基 酸 残 基 的 输入 窗口 决定 , 这 个 


样本 数量 平均 长 度 样本 数量 平均 长 度 


7.3 和 蛋白质 二 级 结构 预测 . 95 . 


窗口 一 次 向 前 滑动 一 个 残 基 . 相对 应 的 编码 方法 为 : 对 于 一 个 单独 的 序列 每 一 个 残 
基 被 一 个 正 交 向 量 编码 , 由 于 自然 状态 下 可 以 形成 蛋白 质 的 氨基 酸 共有 20 个 , 那 
入 这 种 正 交 向 量 共 有 20 个 . 例如 , (1, 0, ……, 0), 这 个 向 量 是 21 维 的 , 向 量 的 前 20 
维 中 , 每 一 维 表示 一 种 氨基 酸 残 基 . 为 了 能 使 滑 窗 从 N 端 滑 到 C 端 , 也 能 从 C 端 
滑 到 N 端 , 第 21 维 被 加 到 每 个 残 基 中 . 如 果 窗 口 的 长 度 是 1, 那么 特征 向 量 的 维 数 
是 21x; 维 . 在 编码 的 时 候 , 首先 取 序 列 的 第 一 个 残 基 , 确定 了 相应 的 向 量 . 再 取 第 
二 个 残 基 , 把 取得 的 向 量 放 在 第 一 个 向 量 的 后 面 . 这 样 当 一 个 长 度 为 1 的 氨基 酸 序 
列 编码 以 后 就 可 以 形成 一 个 21x1 维 的 向 量 . 当 加 入 了 进化 信息 以 后 , 对 单独 序列 
进行 多 重 序列 比 对 . 通过 比 对 计算 出 在 某 个 位 置 的 氨基 酸 残 基 发 生 频 率 . 


7.3.4.2 和 格 片 段 提 取 方 法 


根据 N 格 模型 把 从 训练 集 的 每 一 个 蛋白 质 序 列 中 取出 一 系列 长 度 为 ON 的 蛋 
白质 片段 Ol. 是 片段 的 长 度 ,，N 由 不 同 结构 片段 的 平均 长 度 决定 . 

首先 进行 向 量化 . 根据 氨基 酸 的 化 学 特征 把 所 有 氨基 酸 归 为 5 类 , 每 种 类 别 以 
一 个 向 量 为 代表 ( 表 7-3). 


表 7-3 ”根据 氨基 酸 的 化 学 特性 划分 的 5 种 类 别 


氨基 酸 类 别 5 维 坐标 向 量 氨基 酸 残 基 
非 极 性 , 脂肪 族 (1, 0, 0, 0, 0) AVI Mi 
芳香 族 (0, 1, 0, 0, 0) F, Y, W 
极 性 , 不 带电 荷 (0, 0, 1, 0, 0) G5, ©, tC, a © 
带 正 电 (0, 0, 0, 1, 0) K,H,R 
带 负电 (0, 0, 0, 0, 1) D,E 


其 次 , 把 每 一 种 氨基 酸 的 化 学 特性 向 量 插入 到 20 种 氨基 酸 形成 的 向 量 中 , 得 
到 了 一 个 100 维 的 氨基 酸化 学 特性 向 量 . 例如 氨基 酸 残 基 序列 “LWQ” 向 量化 后 得 
到 
V =0,---,.0,0.33,0,---,00,---,0,0.08, 0, ---,00,---,0,0.33,0,---,0 
Ne a a en Na Ne re Ne ee ee 


10 Put 89 35 Puw 62 70 Pua 29 
ns 
0, Ww Q 


再 次 , 根据 每 种 氨基 酸 在 训练 集中 样本 的 氨基 酸 链 以 及 每 个 氨基 酸 在 样本 集中 
出 现 的 概率 构造 Nx100 维 的 输入 向 量 . 然后 预测 之 间 氨 基 酸 的 正确 二 级 结构 . 在 数 
据 集 CB513 和 RS126 上 进行 检验 得 到 预测 准确 率 分 别 为 Qs=75.2% 和 Q3=73.8%. 
7.3.4.3” 双 层 SVM 


双 层 SVM 编码 方法 首先 为 每 一 个 样本 集中 的 n 个 残 基 的 序列 定义 一 个 ” 行 
20 列 的 PSLBLAST 拢 阵 no0. 在 预测 系统 的 第 一 层 , 每 个 残 基 编码 为 一 个 21 维 
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的 向 量 . 这 个 向 量 中 的 前 20 个 元 素 对 应 PSLBLAST 拢 阵 中 的 元 素 . 至 于 第 二 层 ， 
对 应 于 一 个 残 基 的 向 量 有 4 个 元 素 , 其 中 前 三 个 表示 了 三 种 二 级 结构 (A, E AC), 
最 后 一 个 表示 序列 的 方向 . 如 果 窗 口 的 长 度 是 ,, 那么 特征 向 量 的 第 一 层 的 维 数 为 
21xl 维 , 第 二 层 的 维 数 为 4x! 维 . 

用 于 预测 系统 的 双 层 SVM 结构 的 第 一 层 是 一 个 SVM 分 类 器 , 它 把 每 个 预测 
序列 的 每 个 残 基 都 归 入 H, EAC 三 类 之 一 . 第 二 层 SVM 分 类 器 过 滤 第 一 层 的 输 
出 值 . 第 二 层 的 目标 输出 值 与 第 一 层 的 输出 值 一 样 . 

这 种 方法 根据 PSI-BLAST 程序 产生 样本 集中 的 每 一 个 蛋白 质 序列 的 多 重 序 
列 比 对 图 构造 输入 回 量 . 

7.3.4.4 mn 肽 频数 方法 


由 于 自然 情况 下 的 蛋白 质 序 列 所 包含 的 氨基 酸 残 基数 量 是 不 同 的 , 所 以 可 以 把 
不 同 长 度 的 氨基 酸 序列 转化 成 等 长 向 量 的 ” 肽 频数 方法 有 了 用 武之 地 . 这 种 方法 
是 统计 连续 ”个 氨基 酸 残 基 , 然后 计算 他 们 在 样本 中 出 现 的 频率 , 作为 向 量 对 应 位 
置 的 坐标 . 设 一 个 长 度 为 ¢ 的 序列 已 对 应 的 办 量 为 a, 那么 R2O%” 中 的 o 的 每 一 
维 是 对 应 的 ”个 不 同 的 连续 的 氨基 酸 在 序列 己 中 出 现 的 频率 . 最 简单 的 一 肽 频数 
方法 是 把 序列 P 中 的 各 个 氨基 酸 残 基数 量 直 接 作 统 计 , 求 它 们 的 相对 频数 . 那么 


t= His, =A; k= 15:46), *— oe 


然而 , 仅仅 计算 得 到 的 频率 没有 相 邻 氨基 酸 的 信息 , 不 能 很 好 地 反映 序列 信息 . 
为 了 所 得 向 量 不 但 能 反映 序列 的 氨基 酸 成 分 还 能 反映 氨基 酸 之 间 的 相 邻 信息 , 就 需 
要 计算 连续 两 个 或 多 个 氨基 酸 残 基 片 段 的 相对 频率 . 二 肽 频数 方法 是 计算 任意 的 二 
肽 组 合 在 一 个 氨基 酸 序列 中 的 相对 频数 , 称 作 二 肽 频数 . 二 肽 频数 编码 方法 的 计算 
结果 是 得 到 一 个 20 x 20 的 二 肽 频数 矩阵 


Liz 一 # {(Sk, $k41) = (Aj, A;) ‘k= 1,---,q- 全 4,9 = 1h. ag 

XA Ah RAO 空间 中 . A SEER REE RA Ja tk, 要 对 
这 些 向 量 进行 归 一 化 . 三 肽 频数 方法 是 计算 任意 的 三 肽 组 合 在 一 个 氨基 酸 序 列 中 
的 相对 频数 , 称 作 三 肽 频数 . 三 肽 频数 编码 方法 的 计算 结果 是 得 到 一 个 20x 20 x 20 
的 三 肽 频数 立方 阵 

Lij = ca {(Sk, Sk+1; Sk+2) = (Ay, Aj Am) :k= i oats 1} ’ a,j,m a i; Oy Ts 20 

这 个 向 量 处 于 Rso0 空间 中 . EER RE kA Ja BE, 要 对 

这 些 向 量 进 行 归 一 化 . 对 于 一 肽 频数 有 


20 
》 Ji 一 1 
1=1 


7.3 蛋白 质 二 级 结构 预测 - 97 - 


对 于 二 肽 频数 有 二 
Lig = 1 


i,j=1 


RRS RCT 


20 
> Lijm = 1 


i,j,m=1 


得 到 的 频数 称 作 相 对 频数 . 同 理 对 ” 肽 频数 也 是 一 样 . ” 肽 频数 矩阵 


L(i41)---(i+n) = # {(Sk41,°** > Sktn) 
= (Az --.A;) -£=1,-7>,9—th, fe Beer ZO = 20 
时 一 化 


20 
L(i41)---(14n) = 1 


2—1 ‘ 

这 样 得 到 的 向 量 处 于 20" 维 空间 中 . 从 以 往 的 工作 来 看 ”一般 取 1~3. 这 种 

方法 多 用 于 和 蛋白质 的 结构 类 预测 、 亚 细胞 结构 预测 等 样本 序列 比较 长 的 预测 中 . 例 

如 ASMWERVKSIIKSSLA 为 一 段 螺 旋 结 构 , 图 7-6 以 该 二 级 结构 段 为 例 说 明 二 肽 

频数 编码 方法 , 图 7-7 说 明 三 肽 频数 编码 方法 . 在 的 实验 中 使 用 了 二 肽 频数 编码 方 
= 


A ASMWERVKSIIKSSLA <= 蛋白质 序列 


BAS, SM, MW, WE, ER, RV, VK, KS, SI, II, IK, KS, SS, SL, LA 二 一 分 成 15 个 二 肽 


| ma 


C AS VK LA Il Ik SL SI 


(0, ---0,1,0, «+-,0,1,0, ---,0,1,0, ---,0,1,0,---,0,1,0, ---,0,1,0, ---,0,1,0, < 400 维 的 向 量 
0)1;0，…;0;1;0，…;0;1,0，…;0,2;0,，…;0;1;0, ---,0,1,0, ---,0,1,0, ---) 


Ss SM ER KS RV MW WE 


归 一 化 
日 
D (0, …;0, 0.067,0, ---,0, 0.067,0, …;0, 0.067;,0, …,0, 0.067,0, ---,0, 0.067, <—— crs 
0, ---,0, 0.067,0, ---,0, 0.067,0, ---,0, 0.067,0, ---,0, 0.067,0, ---,0, 0.067,0, 


---,0, 0.133,0, ---,0, 0.067,0, ---,0, 0.067,0, ---,0, 0.067,0, … ,0) 
图 7-6 ”二 肽 频数 编码 方法 工作 流程 
ASMWERVKSIIKSSLA 一 个 结构 域 的 一 级 序列 ， 从 这 段 序 列 中 可 以 取得 15 个 二 肽 . 通过 计算 每 个 二 肽 
出 现 的 频率 , 得 到 一 个 400 维 的 向 量 . 这 个 向 量 归 一 化 后 成 为 所 需 的 向 量 
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A ASMWERVKSIIKSSLA <— 蛋白质 序列 


| 


B ASM, SMW, MWE, WER, ERV, RVK, VKS, KSI, SII, IK, IKS, KSS, SSL, SLA <q 分 成 14 个 三 肽 


pater 


C ASM VKS Ik IKS SLA SII KSS 


(0, ---,0,1,0, ---,0,1,0, ---,0,1,0, ---,0,1,0,---,0,1,0, ---,0,1,0, ---,0,1,0, <— 8000 维 的 向 量 
0,1.0，…;0;1;0，…;0,1;0，…0,1;0，…;0,1;0，…;0;1;0, ---,0,1,0, ---) 


SSL SMW ERV. KSI RVK MWE WER 


归 一 化 
D (0,-+-,0,0.071,0,--,0,0.071,0,---,0,0.071,0,---,0,0.071,0,---,0,0.071, : 输入 空间 内 的 
0,…,0,0.071,0,…,0,0.071,0,…,0.0.071,0,…,0,0.071,0,…,0,0.071.0， 8000 维 向 量 


--+,0,0.071,0,--+.0,0.071,0,---,0,0.071,0,---,0,0.071,0,---:0) 
77 “三 肽 频数 编码 方法 工作 流程 
ASMWERVKSIIKSSLA 是 一 个 结构 域 的 一 级 序列 ,从 这 段 序 列 中 可 以 取得 14 个 三 肽 . 通过 计算 每 个 三 
肽 出 现 的 频率 , 得 到 一 个 8000 维 的 向 量 . 这 个 向 量 归 一 化 后 成 为 所 需 的 向 量 | 


7.3.5 “二 级 结构 预测 准确 率 评估 方法 

7.3.5.1 三 级 结构 片段 预测 准确 率 评 估 方 法 

二 级 结构 段 预测 准确 率 的 评估 是 以 二 级 结构 段 作 为 训练 和 检测 的 基本 单位 进 
行 的 . 定义 了 每 种 状态 的 三 态 总 的 预测 准确 率 : Q89, Q8 ad QPF4, Qobs, Qobs 和 Qobs 
和 Qs 来 评估 预测 结果 107). 这 些 评估 方法 定义 如 下 : 

如 果 i. j e {H,E,C}, 二 级 结构 i 预测 成 为 二 级 结构 j 的 数量 为 Niji, 1 类 二 
级 结构 的 总 数量 


obs; = ba Nij 
p j=1 x 
预测 为 ;类 二 级 结构 片段 总 数量 
by tee | 
prd; = > Ni . 
j=l | 


样本 总 量 
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MBA, 基于 片段 的 三 态 预测 准确 率 


每 种 二 级 结构 三 态 预 测 百分比 为 


Ni 
Sobs — 100- Nii aT ee = 100- 


=> (e{H. B.C} 


7.3.5.2 ”每 个 残 基 的 预测 准确 率 评 估 方 法 


(1) 预测 矩阵 [207 
Mij= 状态 ; 预测 为 状态 7 的 氨基 酸 残 基数 量 , 其 中 i,j e {H,E,C}. 其 中 状 
AS ; 预测 残 基 的 总 数量 为 


3 
obs; = 5) Mi;, j € {H, E,C} 


all 
预测 成 为 7 的 残 基 总 数量 为 
3 
prd; = ) > Mji 
三 种 状态 的 残 基 总 数量 为 
Nres = >》 obs; = >》 prd; = hb Mi; 
a i ij 


(2) 三 种 状态 总 的 预测 准确 率 . 


(3) 每 种 状态 正确 率 百分比 两 个 变量 可 以 定义 每 种 状态 的 正确 率 百分比 , 它 
们 分 别 回答 了 以 下 问题 : © 有 多 少 观测 为 螺旋 BR RARE 
观察 为 某 种 状态 的 残 基 正确 预测 的 百分比 为 Oytobs = 100 ae, @ 有 多 少 预 测 的 
残 基 为 螺旋 (BRIE HH) 的 残 基 是 正确 的 ? 预测 为 某 种 状态 的 残 基 是 正确 的 百 分 
比 为 Q%prd — 100- a 

(4) 信息 索引 . SARs EAH, 它 把 不 同 的 百分率 混合 到 了 
一 个 量 中 , 在 这 个 量 中 准确 率 矩 阵 中 的 元 素 被 平等 地 处 理 ， 信息 索引 为 info = 
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in | ee ,其 中 Py, 描述 了 一 个 观测 为 站 的 样本 状态 为 点 概率 ,Ps 为 预测 矩 
阵 {A5} 的 实现 . 信息 索引 可 以 改写 成 


info%obs + inf o%prd 
info = 一 一 一 一 


2 
其 中 
3 3 
Ne prd; - Inprd; 一 s Mi; ln Mi; 
info ors = 一 | - a | 
Nres * In Nres — ee obs; - In obs; 
i=1 
3 3 
& obs; -In obs; = z Mi; In Mi; 
info”Pr4 7S i=1 ; i=1 
Nres * In Nres — >. prd, - In prd; 
i=1 | 
(5) Matthew 相关 系数 
eee Di MG Ui % 


(pi + Us) - (pi + 0%) - (ni + Ua) - (Ni + 04) 


3.3 3 3 
OP p; = Mu, 1; > Mix, i= >. Ma ui 一 》 My. 
JI 天 ;大 天 ; j#t j#t 
(6) 片段 交 县 准确 率 评 佑 方法 . BRASH HERE 
1  MINOV (51; S2) + DELTA (51; So) 
Se ee MAXOV (Si; 52) 


其 中 , 5; 和 So 是 状态 i( 包 括 螺旋 H. AS 已 和 卷曲 C) 观测 的 和 预测 的 二 级 结构 
片段 . LEN(5S1) 为 片段 S: 中 残 基 的 数量 . MINOV(S; So) A Si 和 Sp MMB 
KEE. MAXOV(S1; S2) 为 S; 和 So 中 包含 的 所 有 状态 ;的 残 基 总 长 度 . DELTA(S5i; 
So) 为 下 面值 的 整数 部 分 : 
MAXOV (51; S2) — MINOV (91; S2) 
MINOV ($1; S2) 
INT (0.5 - LEN (5S1)) 
INT (0.5 - LEN (S2)) 


DELTA ($1; S2) = min ( 


N (i) 状态 ; 残 基 的 数量 为 


N; = 5_ LEN (S,) + 》 LEN (91) 
S(i) S’(z) 
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其 中 Si) BH EAS); So} PARAM A, 5) 和 Sp 中 至 少 有 一 个 残 基 是 相同 
的 . S(i) 是 5 中 没有 配对 的 残 基数 量 . 


三 态 片段 交 登 量 为 
4 = 1 MINOV (Si; S2) =i DELTA (Si; S2) 
SOV = SOV; = ra MAXOV (Sis) LEN (51) 
其 中 
N=} _N; 


7.3.6 ”蛋白 质 二 级 结构 预测 结果 


为 了 客观 地 评估 预测 结果 , 实验 中 采用 了 多 重 交 叉 验 证 试验 来 减 小 由 一 次 随机 
选择 训练 集 和 检测 集 带 来 的 预测 偏差 . ” 重 交 叉 验 证 试验 需要 首先 把 样本 集 平 均 分 
成 等 份 , 然后 其 中 一 个 子 集 作为 检测 集 , 其 余 m - 工 个 子 集合 并 成 为 训练 集 . 对 
训练 集 进行 训练 得 到 的 分 类 器 用 于 对 检测 集 进 行 的 检测 .然后 以 另外 一 个 子 集 作 
为 检测 集 进行 下 一 轮 试验 . 这 个 过 程 重复 ”次 . 这 样 , 每 一 个 样本 都 可 以 被 预测 一 
次 , 所 以 交叉 验证 试验 的 准确 率 就 是 被 正确 分 类 的 样本 的 百分比 . 本 书 报告 的 所 有 
结果 都 由 7 重 交 叉 验 证 试验 取得 . 

在 实验 中 , 我 们 使 用 SVM 分 类 与 鉴别 蛋白 质 序 列 片段 . 运用 SVM 预测 蛋白 
质 二 级 结构 一 般 包括 以 下 四 个 步骤 : @ 采集 蛋白 质 序 列 片段 构建 样本 集 . © Fa 
码 样本 以 嵌入 到 输入 空间 . 在 这 个 过 程 中 , 氨基 酸 残 基 序 列 依据 它 的 二 级 结构 特征 
转化 为 输入 空间 中 的 向 量 . @) 利用 核 函 数 把 输入 空间 的 向 量 映射 到 高 维特 征 空间 . 
图 为 了 对 这 些 向 量 进行 分 类 , 在 高 维特 征 空间 中 寻找 优化 分 类 超 平面 .最 优 分 类 
超 平面 这 样 优化 得 到 : 最 大 化 两 类 数据 集中 与 这 个 超 平面 最 近 的 训练 样本 的 距离 . 
因为 高 维特 征 空间 中 的 向 量 根据 它 的 类 别 被 最 优 分 类 超 平面 线性 分 开 , 所 以 样本 就 
在 输入 空间 中 被 非 线 性 地 分 开 OY, 

实验 中 , 我 们 首先 采用 了 径 向 基 核 函数 (RBF) 


作用 (一 ?||z; 一 z;||7) - y>0 (7.1) 


来 把 向 量 映射 到 高 维特 征 空间 . 其 中 7 是 参数 , 它 的 值 由 使 用 者 确定 . 然后 我 们 选 
择 了 模型 C-SVC 


l 
min sure #G 之 6 (7.2) 


subject to y; (w' & (xj) +b) >1-§ (7.3) 
& 2 0, 4=1,:--,l (7.4) 
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来 进行 二 元 分 类 . (7.2) 式 中 的 误差 权重 C 也 是 由 使 用 者 来 确定 的 参数 , 它 衡 量 误 
差 罚 分 的 大 小 . 

根据 DSSP 的 原则 , 8 种 蛋白 质 二 级 结构 归 类 为 三 种 , 那么 蛋白 质 二 级 结构 的 
分 类 是 三 元 分 类 . 由 于 SVM 的 基本 算法 只 能 进行 二 元 分 类 , 所 以 运用 在 SVM 算法 
编程 得 到 的 软件 系统 要 进行 多 次 二 元 分 类 才能 实现 多 元 分 类 . 软件 系统 Libsvm 运 
用 投票 法 进行 三 元 分 类 , 所 谓 投票 分 类 法 指 的 是 每 一 次 二 元 分 类 被 看 作 是 一 次 投票 
过 程 , 对 每 一 个 样本 的 分 类 就 是 一 次 投票 . 最 后 , 样本 划 归 得 票 最 多 的 二 级 结构 类 . 
Libsvm 运用 指数 序列 搜索 方法 (如 C = 2-5,2-4,..-, 215; y= 2-1 9-14... 95) 和 逐 
格 搜索 (7.2) 式 中 的 参数 C 和 (6.1) 式 中 的 参数 7 以 确定 最 优 取 值 . 通过 对 C 和 
7 逐 格 搜索 , 数据 集 RS126 在 C=2 和 7=2 时 预测 准确 率 最 优 , 数据 集 CB513 在 
C=512 和 y= 0.125 时 预测 准确 率 最 优 . 图 7-8 显示 了 对 于 RS126 进行 参数 优化 的 
结果 . 图 7-9 显示 了 对 于 CB513 进行 参数 优化 的 结果 . 


outfile-abc-126 


—5 0 10 15 


5 
Ig(C) 
7-8 ARR RS126 的 参数 C 和 7 的 优化 结果 


outfle-abc-513 


图 7-9 非 元 余数 据 集 CB513 的 参数 C 和 y 的 优化 结果 
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实验 中 还 利用 6 个 二 元 分 类 器 对 样本 进行 分 类 , 每 一 个 二 元 分 类 器 训练 两 类 
不 同 的 样本 . 在 实验 中 根据 蛋白 质 序 列 片 段 的 二 级 结构 特征 取得 样本 集中 的 样本 . 
样本 的 长 度 从 2 个 残 基 到 99 个 残 基 不 等 . 6 个 二 元 分 类 器 为 : H/~H, 表示 螺旋 
对 折 仅 和 无 规则 卷曲 ; 已 /~ 也 , 表示 折 和 县 对 螺旋 和 无 规则 卷曲 ; C/~C, 表示 无 规则 卷 
Hrs SARE; H/E, Ra REN; E/C, 表示 折 县 对 无 规则 卷曲 ; C/H, 表示 
无 规则 卷曲 对 螺旋 . 6 个 二 元 分 类 器 利用 最 优 参数 对 RS126 和 CB513 进行 分 类 . 
表 7-4 展示 了 6 个 二 元 分 类 器 以 及 它们 对 RS126 和 CB513 的 分 类 准确 率 . 


表 7-4 二 级 结构 段 的 二 元 预测 准确 率 (%) 


二 元 分 类 器 RS126 样本 集 CB513 样本 集 
H/~H 81.2 83.2 
E/~E 80.7 82.0 
CpG 77.9 80.7 

H/E 77.4 80.1 
E/C 81.6 81.9 
C/H 79.4 81.7 


注 : 该 表 显 示 的 结果 都 来 自 于 7 重 交 叉 验 证 试验 . 6 个 二 元 分 类 器 为 : H/~H, ROE SAH 
则 卷曲 ; E/E, 表示 折叠 对 螺旋 和 无 规则 卷曲 ; C/~C, 表示 无 规则 卷曲 对 折 琶 和 螺旋 ; H/E 表示 , 螺旋 对 
TB; B/C, 表示 折 有 登 对 无 规则 卷曲 ; C/H, 表示 无 规则 卷曲 对 螺旋 . 


根据 二 元 分 类 的 结果 , 表 7-5 总 结 了 三 元 预测 的 结果 . CB513 HAR PLZ 
结构 片段 为 单位 的 三 态 总 的 预测 准确 率 (53) 为 72.2%, RS126 样本 集中 以 二 级 结 
构 片 段 为 单位 的 三 态 总 的 预测 准确 率 (93) 为 69.7%. 


表 7-5 ”二 级 结构 段 的 三 元 预测 准确 率 (%) 


评估 方法 RS126 样本 集 CB513 样本 集 

S3 69.7 72.2 
SR 57,1 63.1 
= 66.9 67.2 
SR 78.9 80.8 
| 65.9 71.2 
Eprd 69.1 69.7 
ees 72.8 74.1 


注 : 该 表 显 示 的 结果 都 来 自 于 7 重 交叉 验证 试验 . 


在 得 到 了 基于 片段 的 准确 率 基 础 上 , 得 到 基于 残 基 的 准确 率 是 一 件 很 容易 的 
Bt. 表 7-6 展示 基于 残 基 的 预测 准确 率 . 

由 于 数据 量 很 大 , 采用 完全 的 Jack-knife 试验 的 计算 量 是 无 法 忍受 的 , 因此 我 
们 的 实验 采取 了 国际 上 通用 的 交叉 验证 方法 . 图 7-10 展示 了 每 一 次 交叉 验证 试验 
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表 7-6 ”二 元 分 类 每 个 残 基 预 测 准确 率 


la. 65 人工 站 直下 林 可 站 二 和 
H/~H 81.1 82.7 
E/~E 85.1 85.5 
C/~C 82.3 82.9 
H/E 80.7 83.9 
E/C 85.7 85.2 
C/H 83.3 85.6 


YE: 二 元 分 类 器 意 为 : H/~H: bet BASH; E/~E: HBAS HH; C/~C: 卷曲 对 螺旋 和 
r#®; H/E: wets; E/C: HB; C/H: 卷曲 对 螺旋 . 


RS126 的 7 重 交 叉 验 证 分 析 


预测 准确 率 / 匈 


xl x x3 x4 xd x6 x7 E 


ORF HR OB 基于 残 基 
(a) 


CB513 的 7 重 交 叉 验 证 分 析 


预测 准确 率 / 匈 


xl x2 x3 x4 XO x6 x7 E 


日 基于 片段 目 基于 残 基 
(b) 


7-10 RS126 数据 集中 基于 片段 的 准确 率 和 基于 残 基 的 准确 率 比 较 (a) 和 CB513 数据 集中 
基于 片段 的 准确 率 和 基于 残 基 的 准确 率 比 较 (b). 准确 率 使 用 了 7 重 交 叉 验 证 分 析 由 7 个 检测 
集 给 出 . 最 后 一 栏 给 出 了 打分 的 期 望 


ea ee eee 


eee 
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的 结果 . 其 中 图 (a) 表示 的 是 基于 片段 的 预测 准确 率 , 图 (b) 表示 的 是 基于 残 基 的 
预测 准确 率 . 每 种 准确 率 的 实际 数值 由 表 7-7 给 出 . 


表 7-7 ”基于 残 基 的 和 基于 片段 的 7 重 交 叉 验 证 预测 准确 率 


基于 残 基 的 预测 准确 率 / 史 基于 片段 的 预测 准确 率 / 兄 

关 别 RS126 CB513 RS126 CB513 
总 准确 率 74.3 77.3 69.6 72.1 

ae 73.4 79.1 57.1 63.1 
es 63.3 64.6 66.9 67.2 
pope 80.7 $2.3 78.9 80.8 
Hprd 73.6 78.5 65.9 71.2 
Eprd 69.8 70.9 69.1 69.7 
cprd 77.4 79.1 72.8 74.1 


# 7-8 展示 了 三 元 预测 的 结果 . 总 的 三 态 残 基准 确 率 (Qs) 对 于 CB513 的 预测 
是 77.3%, 标准 差 为 0.98%, 对 于 RS126 的 Qs 预测 准确 率 是 74.3%, 标准 差 1.2%%. 
总 的 三 态 准 确 率 为 77.3% 是 一 个 很 好 的 预测 结果 . 通过 这 个 实验 还 可 以 看 到 仅仅 改 
善 编码 方法 , 而 保持 算法 不 变 就 可 以 提高 蛋白 质 二 级 结构 预测 的 准确 率 . 


表 7-8 Ask SVM*’, SVMssp，PMSVM 和 SVM 的 预测 准确 率 比 较 


HE — Qa/% @ 吕 /外 Qe*/% QeP=/% QPA/% QP /% QP/% 一 

Co CE Co 
SVME¥ ss 71.2 73 58 75 77 66 69 0.61 0.51 0.52 
SVMssp —s 73.8 75 61 81 81 69 70 要 - 
PMSVM ”74.0 79.3 69.3 72 79.4 66.4 wo «68 |G OSS 
SVMF —s 74.3 73 63 81 74 70 i 0.59 0.57 0.63 
SVMS¥* = 73.5 75 60 79 79 67 70 0.65 0.53 0.54 
SVMssp*x 75.2 78 65 80 82 71 71 . z - 
PMSVM*_ 75.2 80.4 71.5 72.8 79.4 66.4 76.4 0.71 0.61 0.61 
SVM4* = 77.3 79 65 82 79 71 79 0.66 0.59 0.67 


YE: SVMS”, SVM*SP 和 SVM“! 结果 取 自 RS126 数据 集 ; 
PMSVM: 结果 取 自 CB396 数据 集 ; 
SVMsw*+、SVMssp* 、PMSVM 和 SVMdt*: 结果 取 自 CB513 数据 集 ; 
SVM“ 与 SVMdt* 的 结果 源 自 二 肽 频数 编码 方法 ; 


-: 结果 不 能 从 原文 献 中 找到 


三 种 蛋白 质 二 级 结构 的 统计 特征 是 不 一 样 的 . 为 了 对 各 种 二 级 结构 进行 进 一 
步 的 研究 , 我 们 计算 了 每 种 二 级 结构 预测 成 为 其 他 二 级 结构 的 预测 准确 率 . 表 7-9 
中 展示 了 计算 结果 , 其 中 行 中 显示 的 是 观测 到 的 比率 , 列 中 显示 的 是 预测 的 比率 . 以 
Helix 行为 例 说 明 表 7-9 的 意义 , 该 行 中 数值 的 意义 为 观测 为 螺旋 的 二 级 结构 中 有 
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63.1% FRM A PBHE, 13.2% ATS, 23.7%% 预 测 为 卷曲 . 其 他 数值 的 意义 以 此 类 推 . 


表 7-9 每 种 二 级 结构 预测 为 其 他 二 级 结构 的 百分率 


预测 比率 
螺旋 He 卷曲 
观测 比率 螺旋 63.1 13.2 23.7 
és 11.3 67.2 21.5 
卷曲 8.1 11.1 80.1 


注 : 表 中 所 有 结果 来 自 CB513 数据 集 . 


支持 向 量 机 是 由 支持 向 量 确定 的 分 类 机 , 同时 运算 的 复杂 度 由 训练 样本 集中 的 
支持 向 量 和 VC 维 确定 . 支持 向 量 越 多 该 训练 样本 集 越 复杂 . 表 7-10 展示 了 几 种 
支持 向 量 机 方法 中 出 现 的 支持 向 量 与 样本 集中 训练 样本 数量 的 比率 . 


表 7-10 每 种 方法 的 支持 向 量 与 总 向 量 的 比率 (%) 


分 类 器 二 肽 频数 方法 SVM4E 滑 窗 方法 SVMSsw* N 格 模型 方法 SVMssp* 


H/~H 49.2 50.46 40.9 
E/~E 47.1 43.92 36.5 
C/~C 54.9 59.02 55.0 
H/E 53.8 50.27 36.0 
E/C 50.3 53.16 48.5 
C/H 51.1 52.62 46.1 


注 : 表 中 的 所 有 分 类 器 都 是 二 元 分 类 器 . BREF CB513 数据 集 的 7 重 交 叉 验 证 试验 . SVMsw* 的 


结果 来 自 Hua & Sun (1993), SVMssp* 的 结果 来 自 Yang (2003), SVMdt 是 我 们 的 运算 结果 . 


SVM 方法 于 2001 年 由 Hua 首次 应 用 于 蛋白 质 二 级 结构 预测 . 从 那 时 起 , 这 种 ， 


方法 逐渐 被 人 们 认识 并 应 用 于 蛋白 质 折 倒 类 预测 、 蛋 白质 亚 细 胞 定位 预测 Pa7 以 
及 和 蛋白质 相 对 溶解 性 特征 评估 205) 等 方面 . 同时 , SVM 的 编码 方法 和 预测 准确 率 
评估 方法 也 得 到 改进 . SVM 的 编码 方法 大 体 包 括 两 类 , 一 类 为 滑 窗 方 法 , 这 种 方法 
多 用 于 比较 短 的 氨基 酸 序 列 的 向 量化 ; 另 一 种 为 氨基 酸 片 段 的 统计 信息 方法 , 这 种 
方法 多 用 于 比较 长 的 氨基 酸 序列 的 向 量化 . 实验 中 介绍 了 以 二 级 结构 段 为 基本 单 


位 的 蛋白 质 二 级 结构 预测 准确 率 评 估 方 法 . 基于 蛋白 质 二 级 结构 段 的 预测 准确 率 
评 佑 方法 从 一 个 新 的 角度 评估 蛋白 质 二 级 结构 预测 准确 率 , 这 种 方法 要 比 基 于 氢 基 
酸 残 基 的 预测 准确 率 评估 更 能 反应 三 级 结构 的 本 质 上 4. 同时 , 对 于 二 级 结构 段 的 】 


预测 准确 率 评估 以 二 肽 频数 编码 方法 为 基础 . 根据 二 肽 频数 编码 方法 , 具有 相同 二 ， 


级 结构 特征 的 相 邻 氨基 酸 残 基 都 会 处 于 样本 集 的 同一 元 素 中 . 如果 一 个 样本 被 准 
AM, 那么 它 所 包含 的 所 有 氮 基 酸 残 基 都 被 正确 预测 . 反之 , 如 果 向 量 被 错误 预 


测 , 它 所 包含 的 氨基 酸 残 基 都 会 被 错误 预测 . 


7.3 和 蛋白质 二 级 结构 预测 07 。 


利用 二 肽 频数 编码 方法 , 如 果 氮 基 酸 序列 中 相 邻 的 氨基 酸 残 基 属 于 同一 个 二 
级 结构 区 域 , 那么 不 管 这 个 二 级 结构 序列 片段 的 长 度 如 何 , 它们 都 会 被 分 配 到 一 个 
样本 中 . 否则 , 如 它们 属于 不 同 的 二 级 结构 区 域 , 则 它们 会 被 分 配 到 不 同 的 样本 中 . 
如 果 样 本 预测 正确 , 样本 中 所 有 的 残 基 都 会 被 正确 预测 . 反之 , 如 果 样 本 预测 错误 ， 
那么 样本 中 的 所 有 残 基 都 会 被 错误 预测 .因此 预测 的 残 基 准确 率 与 片段 准确 率 是 
一 致 的 . 通过 该 实验 , 在 CB513 和 RS126 预测 分 别 得 到 的 Q@s 准确 率 超 过 77% 和 
74%. 而 在 CB513 上 预测 得 到 的 结果 比 当前 使 用 相同 数据 集 预 测 的 结果 要 高 出 两 
个 百分点 左右 . 

利用 以 前 的 编码 方法 , 为 了 使 向 量 保持 在 同一 个 输入 空间 , 样本 长 度 必须 固定 . 
由 于 构成 同一 蛋白 质 二 级 结构 的 氨基 酸 残 基 链 的 长 度 是 不 同 的 , 所 以 为 了 保持 样本 
长 度 一 定 , 属于 不 同 二 级 结构 的 氨基 酸 残 基 就 必须 被 分 配 到 同一 个 样本 中 . 残 基 预 
测 准确 率 与 片段 预测 准确 率 不 是 一 致 的 . 同一 个 片段 中 的 残 基 , 有 的 可 能 正确 预测 ， 
而 另外 一 些 则 错误 预测 . 同时 , 使 用 这 些 编码 方法 , 必须 小 心地 选择 样本 长 度 以 确 
保 预 测 的 准确 率 较 高 . 因为 样本 长 度 过 短 , 残 基 序 列 片段 会 丢失 重要 的 分 类 信息 ， 
而 太 长 的 残 基 序 列 则 会 带 来 噪音 . 

采取 二 肽 频数 编码 方法 的 主要 优势 在 于 : @ 不 同 长 度 的 蛋白 质 序列 片段 可 以 
编码 进入 同一 个 输入 空间 , 所 以 实验 者 可 以 仅仅 依据 氨基 酸 序列 的 二 级 结构 属性 来 
采集 训练 和 检测 样本 ; CO 从 和 蛋白质 序列 片段 中 插入 或 删除 个 别 残 基 不 会 引起 二 肽 
频数 的 很 大 变化 ; @ 二 肽 频数 编码 方法 可 以 保持 输入 空间 有 较 小 的 维 数 . 

然而 这 种 方法 也 有 不 足 之 处 , 即 对 于 给 定 的 氮 基 酸 序列 目前 还 没有 有 效 的 方法 
确定 二 级 结构 的 分 段 情况 . 
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大 约 半 个 世纪 以 前 人 们 已 经 初步 证 明了 蛋白质 一 级 序列 可 以 确定 三 维 结构 , 蛋 
白质 通过 三 维 结构 实现 自身 的 功能 2°"). 在 自然 状态 下 , 蛋白 质 的 折 仅 类 型 不 超过 
1000 种 Dog. 然而 生物 体 正 是 依靠 这 神奇 的 、 区 区 1000 PRATER Re AA ASE 
现 了 整个 生命 历程 中 的 全 部 生物 功能 . 此 外 , 对 和 蛋白质 相 互 作用 数据 的 分 析 表 明 蛋 
白质 相互 作用 的 数量 也 是 有 限 的 , 它们 的 数量 约 为 10 000009]. 研究 还 表明 生物 界 
中 控制 林林总总 的 生命 体 遗 传 和 生长 发 育 的 基因 的 数量 是 有 限 的 , 大 体 上 这 个 数量 
为 30 000[aol. 由 于 不 同 蛋白 质 之 间 的 相互 作用 和 肯 白 质 与 相应 配 体 之 间 的 相互 作 
用 都 由 它们 的 三 维 结构 决定 , 所 以 收集 、 探 索 和 挖掘 蛋白 质 结构 数据 库 中 的 这 类 信 
息 对 于 生命 本 质 研 究 至 关 重 要 . 

由 于 实验 方法 、 实 验 设备 、 工 作 人 员 知 识 结构 和 思想 以 及 人 类 掌握 的 相关 知识 
等 方面 的 问题 , 对 于 生物 体 基因 序列 的 研究 、 这 些 基 因 可 以 表达 的 生物 分 子 的 结构 ， 
的 研究 以 及 这 些 结构 可 以 表现 出 来 的 功能 的 研究 之 间 存 在 不 平衡 . 一 方面 , 沉淀 在 
序列 数据 库 中 的 数据 越 来 越 多 , 通常 这 些 序列 是 功能 不 很 清楚 的 原始 数据 ; 另 一 方 
面 , 在 蛋白 质数 据 库 (protein data bank) 中 的 结构 信息 积累 相对 缓慢 OO. 因此 同 
源 建 模 方法 和 计算 机 仿真 方法 等 计算 方法 就 成 为 预测 蛋白 质 结构 的 实验 方法 以 外 
的 重要 补充 . 

蛋白 质 结构 预测 的 计算 方法 的 核心 问题 是 明晰 残 基 序列 与 蛋白 质 三 维 结构 之 
间 有 机 的 、 必 然 的 联系 和 挖掘 理 涵 在 残 基 序列 中 的 结构 信息 . 可 以 想象 , 由 于 构成 
合理 长 度 蛋 白质 一 级 序列 的 20 种 氨基 酸 之 间 的 组 合 是 一 个 极 大 的 数字 ， 而 蛋白 
质 的 折合 类 型 仅 为 1000 种 的 话 , 那么 序列 构成 这 些 折 倒 类 型 的 方式 一 定 遵 循 茶 种 
规律 . 到 目前 为 止 人 们 已 经 尝试 了 几 种 方法 来 探索 这 些 规律 . 这 些 方 法 包括 氨基 酸 
组 分 方法 (ACC)Bl2~120 ,神经 网 络 方法 (ANN)B241， 隐 马尔 可 夫 模 型 (HMM) FF 
法 823 以 及 支持 向 量 机 方法 (SVMJ)E23]. 1 

这 些 方法 中 ， 氢 基 酸 组 分 方法 和 双 组 件 效 果 的 氨基 酸 组 分 方法 的 研究 最 充 
分 024125]， 仅 依赖 序列 中 氨基 酸 成 分 , 即 仅 依赖 氨基 酸 残 基 在 序列 中 的 百分比 而 
不 考虑 其 他 因素 的 影响 ,预测 准确 率 就 可 以 达到 80%026. 在 这 种 方法 上 发 展 起 来 
了 双 组 件 效 果 的 氨基 酸 组 分 方法 和 双 组 件 算法 (124,127,128) 近 十 年 来 , 使 用 双 组 件 
算法 用 于 预测 和 蛋白质 结 构 类 可 以 达到 很 高 的 准确 率 中 29~133]. 


8.1 fil 介 - 109 - 


支持 向 量 机 方法 是 很 好 的 机 器 学 习 方法 , 它 利用 最 大 边界 对 两 类 样本 进行 分 
类 , 这 种 分 类 方法 可 以 得 到 很 好 的 泛 化 效果 . 其 他 的 机 器 学 习 方 法 比如 ANN 与 


HMM 方法 利用 最 小 错误 方法 对 两 类 数据 进行 分 类 , 这 种 方法 的 缺陷 在 于 泛 化 能 力 


有 限 84. 支持 向 量 机 方法 曾 用 于 蛋白 质 结构 类 型 的 预测 中 上 35.1361. 

根据 以 前 的 定义 , 蛋白 质 根据 二 级 结构 组 成 的 不 同 可 以 分 为 四 种 结构 类 : a、B、 
a+ 3 和 a/6037138.， 探索 蛋白 质 二 级 结构 是 构建 3D 结构 的 第 一 步 99). 由 于 如 
果 知 道 了 和 蛋白质 的 结构 类 型 就 可 以 有 针对 性 地 专注 于 某 些 类 型 的 研究 , 因此 可 以 简 
化 探索 的 过 程 19), 

结构 域 是 能 够 独立 折 登 为 稳定 的 三 级 结构 的 多 肽 链 , 由 不 同 的 二 级 结构 和 超 二 
级 结构 组 合 形成 . 一 条 多 肽 链 在 一 个 域 范围 内 来 回 折 和 登 , 相 邻 的 域 常 被 一 个 或 两 个 
多 肽 片段 连接 . 一 个 蛋白 质 可 以 只 包含 一 个 结构 域 也 可 以 由 几 个 结构 域 组 成 . 结构 
域 通常 由 20~700 个 氨基酸 残 基 组 成 , 其 特点 是 在 三 维 空 间 可 以 明显 区 分 和 相对 独 
立 , 并 且 具 有 一 定 的 生物 功能 如 结合 小 分 子 . 模 体 (motif, 又 称 基 序 ) 是 结构 域 的 亚 
单位 , 通常 由 2~3 二 级 结构 单位 组 成 , 一 般 为 a 螺旋 、8 BMH. 

结构 域 在 恒 白质 中 这 种 组 合 的 数目 是 有 限 的 , 一 些 结合 方式 似乎 是 重 白 质 结构 
所 偏爱 的 , 并 且 相 似 的 结构 域 结 构 在 具有 不 同 功能 不 同 残 基 序 列 的 蛋白 质 中 经 常 重 
复出 现 . 通常 多 结构 域 蛋 白质 中 不 同 的 结构 域 是 与 不 同 的 功能 相关 联 的 . 某 个 种 属 
的 多 个 独立 的 多 肽 链 完成 的 几 种 生物 学 功能 可 以 由 必 一 个 种 属 的 一 个 蛋白 质 中 的 
不 同 结构 域 来 完成 0. 对 那些 较 小 的 球状 蛋白 质 分 子 或 亚 基 来 说 , 结构 域 和 三 级 
结构 是 一 个 意思 , 也 就 是 说 这 些 蛋 白质 或 亚 基 是 单 结构 域 的 . 较 大 的 蛋白 质 分 子 或 
亚 基 其 三 级 结构 一 般 含有 两 个 以 上 的 结构 域 , 即 多 结构 域 的 , Sle] DAZE PE A BEA 
连 , 以 便 相 对 运动 . 

一 般 认 为 结构 域 是 蛋白 质 功 能 的 基本 结构 单位 , 结构 域 有 时 也 指 功能 域 . 功能 
域 是 蛋白 质 分 子 中 能 独立 存在 的 功能 单位 , 它 可 以 是 一 个 结构 域 , 也 可 以 是 由 两 个 
或 两 个 以 上 结构 域 组 成 . 另外 , 很 多 的 折 有 登 过 程 有 基本 的 结构 域 编码 , 靠 理解 这 些 
相对 较 小 的 折 登 过 程 的 细节 ， 可 以 获得 关于 蛋白 质 怎 么 进行 折 私 的 比较 一 般 的 观 
Ri. 因此 蛋白 质 结 构 域 类 型 的 预测 对 于 蛋白 质 折合 过 程 的 研究 和 蛋白 质 结构 和 功 
能 关系 的 研究 具有 重要 意义 . 

PDB 数据 库 中 已 知 结构 的 蛋白 质 在 过 去 30 年 中 呈 指 数 增长 . 由 于 从 结构 基 
因 组 工程 获得 的 动力 和 技术 使 得 允许 高 通 量 的 结构 解析 , 这 种 蛋白 质 结 构 增 长 的 趋 
势 可 以 持续 下 去 . 随 着 已 知 三 级 结构 数据 库 的 快速 扩容 , 蛋白 质 结构 比较 的 重要 性 
与 序列 比 对 的 重要 性 具有 同等 地 位 . 虽然 到 目前 为 止 结构 域 还 没有 统一 的 定义 , 然 
而 人 们 已 经 根据 不 同 的 需要 建立 了 很 多 蛋白 质 结 构 比 较 的 方法 , 这 些 方 法 使 用 了 不 
同 的 蛋白 质 结构 、 评 估 相 似 性 的 方法 以 及 优化 算法 . 

下 面 介绍 几 个 比较 常用 的 结构 域 数 据 库 . 
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与 蛋白 质 二 级 结构 的 定义 方法 相 比 , 蛋白 质 结构 域 的 定义 方法 显得 更 加 主观 一 
些 . 其 中 除了 FSSP 数据 库 是 根据 DALI 算法 9) 自动 定义 的 以 外 ,CATH 数据 
fe [41~145) 和 SCOP 数据 库 [4° 结构 确认 的 过 程 中 都 包含 了 主观 的 成 分 . 蛋白 质 
折 登 分 类 问题 可 以 归 为 两 步 . 第 一 步 , 一 个 蛋白 质 序列 或 复合 体 被 分 解 为 结构 域 子 
序列 ; 第 二 步 , 这 些 结构 域 子 序列 按照 一 定 的 规则 划 归 一 个 结构 域 类 别 . 结构 域 分 
类 方法 中 既 有 完全 自动 的 方法 , 也 有 依赖 于 专家 的 理解 和 知识 的 手工 分 类 方法 . 这 
里 主要 介绍 三 个 常用 的 蛋白 质 结构 域 数 据 库 和 分 类 方法 , 这 三 种 方法 使 用 了 不 同 的 
分 类 策略 , 它们 通过 建立 蛋白 质 相 似 性 等 级 来 比较 蛋白 质 结构 域 的 类 别 . 


8.2.1 DALI 算法 和 了 SSP 数据 库 一 距离 矩阵 比 对 的 蛋白 质 结构 比较 


DALI 算法 是 一 种 在 蛋白 质 结构 域 确认 中 常用 的 算法 , 这 种 算法 用 来 进行 蛋白 
质 结 构 的 两 两 优化 比 对 . DALI 算法 使 用 了 二 维和 矩阵 来 进行 蛋白 质 结构 比 对 , 通过 
该 算法 进行 比 对 所 得 的 结构 是 一 系列 从 结构 上 等 价 的 氨基 酸 残 基 对 , 这 些 残 基 对 构 
成 的 等 价 的 片段 可 以 自由 地 改变 其 在 序列 中 的 位 置 OT . 

距离 矩阵 常常 用 来 对 蛋白 质 的 构造 进行 描述 和 比较 .最 常用 的 距离 矩阵 是 两 
个 氨基 酸 残 基 中 Ca。 原子 之 间 的 距离 矩阵 , 这 种 距离 矩阵 可 以 很 好 地 描述 蛋白 质 的 
三 维 结构 . 矩阵 中 的 元 素 对 于 结构 单位 坐标 保持 了 相对 的 独立 性 , 这 种 矩阵 不 但 可 
以 描述 蛋白 质 的 结构 , 而 且 其 中 还 包含 了 利用 几何 方法 重新 构建 三 维 结构 的 信息 : 
然而 一 般 情况 下 蛋白 质 的 手 性 信息 不 会 包含 在 其 中 . 

相似 的 三 维 结构 具有 相似 的 残 基 之 间 的 距离 , 这 是 这 种 Cu 原子 之 间 的 距离 矩 
阵 工 作 的 基础 . 当 比 较 两 个 蛋白 质 的 结构 时 , 把 其 中 一 个 代表 某 种 结构 域 的 理想 的 
蛋白 质 Co 原子 之 间 的 距离 矩阵 与 另 一 个 待 求 结 构 的 蛋白 质 的 Ca 原子 之 间距 离 
矩阵 的 最 顶端 部 分 相 比较 , 然后 垂直 或 平行 移动 第 一 个 矩阵 . 通过 这 种 矩阵 的 相对 
位 置 移动 , 如 果 找 到 了 与 其 相 匹配 的 子 矩 阵 , 对 齐 第 一 个 矩阵 与 第 二 个 矩阵 的 子 和 
阵 的 主 对 角 线 . 那么 与 这 个 子 矩阵 对 应 蛋白 质 结构 就 是 相似 的 二 级 结构 -与 第 一 个 
矩阵 不 匹配 的 矩阵 对 应 的 部 分 对 应 的 结构 就 是 二 级 结构 之 间 的 链接 . 

DALI 算法 中 首先 把 需要 比 对 的 两 个 蛋白 质 的 三 维 坐标 输入 一 个 用 于 计算 残 
基 序列 中 两 个 C。 原子 之 间 的 距离 矩阵 . 距离 矩阵 首先 分 解 一 定 规模 的 子 和 矩阵 , 比 
如 “六 肽 - 六 肽 ” 子 矩 阵 ; 然后 对 两 个 矩阵 的 子 矩阵 进行 匹配 , 并 由 此 组 合成 较 大 
协调 匹配 子 矩阵 集 ; 最 终 运 用 蒙特 卡 罗 优 化 方法 对 这 个 分 子 间距 离 矩 阵 进行 相似 性 
打分 . 由 于 几 个 比 对 运算 可 以 同时 进行 , 那么 就 可 以 同时 产生 最 好 的 和 稍 逊 的 检测 
结果 . 这 种 方法 允许 进行 比 对 的 序列 中 存在 任意 大 小 的 序列 缺失 、 反 转 以 及 插入 序 
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列 . 这 种 优化 比 对 方法 完全 自动 进行 , 并 且 可 以 在 结构 出 现 了 扭曲 变化 时 准确 地 鉴 
别 蛋 白质 三 维 结构 的 相似 性 和 三 维 结构 的 核心 . 
8.2.1.1 定义 矩阵 


如 果 两 个 相互 比较 的 蛋白 质 为 A 和 B, 与 这 两 个 蛋白 质 对 应 的 矩阵 的 相似 性 
打分 5 为 


7 


S=>)>_ 949) (8.1) 


i=1 j=1 

其 中 ;和 了 分 别 是 匹配 结构 残 基 对 的 序号 , L 是 匹配 残 基 的 数量 ，56 是 比较 方法 ， 
在 距离 矩阵 中 就 是 C。 原 子 之 间 的 距离 dA, dB. 不 匹配 的 残 基 对 不 会 提高 总 的 打 
分 值 . 当 所 比 对 结构 完全 相似 时 , 由 5 (;,7) 确定 的 5 值 达到 最 大 ， 

结构 相似 性 的 比较 可 以 分 为 两 类 0471 

(1) 在 结构 数据 库 中 寻找 一 个 预定 义 的 结构 模式 ; 

(2) 在 两 个 蛋白 质 中 查找 最 大 的 匹配 结构 . 

前 者 定义 目标 函数 很 容易 ， 就 是 最 大 化 相似 性 打分 ， 而 后 者 是 更 _ 般 的 情况 ， 
需要 定义 一 个 相似 性 的 衡量 方法 协调 两 个 矛盾 的 需要 : 最 大 化 等 价 残 基数 量 和 最 


小 化 结构 偏差 . 这 种 匹配 结构 的 刚性 相似 性 打分 方法 为 
6" (7 人 =b2 一 | 吃 一 
其 中 上 标尺 代表 刚性 打分 , df,d2 为 在 蛋白 质 A 和 B 的 距离 矩阵 中 的 等 价 子 结 
构 , 8 = 1.5A 是 指 相 似 性 为 零 . 
与 上 面 的 刚性 相似 性 打分 对 应 的 还 有 一 种 柔性 打分 方法 . 这 种 打分 方法 使 用 
等 价 残 基 之 间距 离 的 相对 性 代替 了 等 价 残 基 之 间距 离 之 间 的 绝对 偏差 . 柔性 打分 
中 增加 了 一 个 弹性 变量 互 . 这 个 弹性 打分 6562 (i,7) 对 于 逐渐 积累 渐进 几何 扭曲 具 


有 容忍 性 aa — a8 
wei di; = pears 
ee G = oars ) sa), Ag 
OF, i=j 
其 中 , d3, #2 d4.d? 的 平均 值 , 62 AAU RA, w 是 封装 函数 . 92=0.2 的 意思 是 
20%% 的 偏差 . 在 结构 比 对 中 20%% 的 偏差 意 为 GB 折 登 中 毗邻 的 折 登 股 之 间 的 匹配 候 
差 小 于 1A, 而 正常 的 8 HBR AERA 4~5 A. 封装 函数 w(r) =e aa , 其 中 
a=20 A. 
8.2.1.2 ak Re 


比 对 算法 包括 两 步 . 第 一 步 是 两 个 距离 矩阵 中 的 所 有 相关 模式 子 结构 的 两 两 比 
RY. 相似 相关 子 结构 储存 在 匹配 列表 中 , 这 个 列表 是 结构 比 对 的 行 . 第 二 步 的 目的 
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是 把 相关 子 结构 的 行 合 并 成 为 较 大 匹配 相 容 集 , 使 得 (8.1) 式 的 相似 性 打分 达到 最 
大 . 处 理 相似 子 结构 比 对 过 程 中 使 用 了 蒙特 卡 罗 方 法 处 理 组 合 复杂 性 . 这 种 算法 包 
括 了 两 个 步骤 : 构建 距离 矩阵 和 和 珑 阵 的 综合 比 对 . 

1. 分 解 距 离 矩 阵 

矩阵 的 容量 的 增加 与 序列 长 度 六 的 平方 成 正比 , 两 个 相似 子 和 矩阵 之 间 可 能 比 
较 的 数量 与 两 个 矩阵 容量 的 乘积 Ni .Na 成 正比 . 

(1) 缩小 矩阵 . 相 邻 的 链接 模式 可 能 重 王 11~12 个 残 基 . 为 了 防止 反复 的 重 丛 ， 
需要 把 蛋白 质 链 分 割 成 为 较 小 的 片段 . 这 些 片 段 的 长 度 大 体 上 与 二 级 结构 片段 的 
平均 长 度 相似 . 连续 的 六 肽 片段 如 果 具 有 相似 的 模式 , 那么 这 些 片 段 可 以 链接 成 为 
较 长 的 片段 , 例如 在 一 个 a 螺旋 中 . 

(2) 匹配 的 相似 子 结构 列表 . 每 个 距离 矩阵 中 的 相似 子 结构 根据 平均 内 模式 距 
离 进 行 分 类 , 那么 根据 这 个 分 类 可 以 构建 从 较 短 的 子 结构 直到 长 程 交 互 作用 的 匹配 
结构 列表 . 减 小 后 的 距离 矩阵 4 首先 与 对 原来 的 距离 矩阵 妃 进行 比较 . 然后 减 小 
后 的 矩阵 B 再 与 原来 的 矩阵 4 进行 比较 . 进行 了 两 次 比较 以 后 ， ‘ERE A Al BP 
的 元 余子 结构 就 可 以 被 删除 . 

2. 综合 比 对 

第 一 , 蒙特 卡 罗 优 化 . 蒙特 卡 罗 的 核心 思想 是 靠 随 机 游 动 来 进行 循环 改善 , 这 
种 游 动 可 能 常常 进入 非 优化 领域 . 随机 移动 的 概率 是 


n& e8*(S’—S) 


其 中 S 是 移动 后 的 打分 , S 是 移动 前 的 打分 , 8 是 参数 . 

基本 的 随机 移动 相当 于 增加 或 删除 残 基 , 这 种 移动 的 效果 是 相似 性 打分 的 增加 
或 减少 . 通过 进行 蒙特 卡 罗 搜 索 可 以 产生 一 个 轨迹 , 这 个 轨迹 由 匹配 的 子 结构 构成 . 
蒙特 卡 罗 优 化 从 一 个 匹配 的 子 结构 开始 , 这 种 优化 有 两 种 基本 的 运行 模式 : 膨胀 模 
式 与 削减 模式 . 从 任何 四 肽 片段 的 比 对 中 删除 (但 不 需要 它们 与 邻居 交 登 ) 这 样 对 
总 的 相似 打分 就 给 了 一 个 净 减 少 的 贡献 . 

第 二 , 选择 优化 方案 . 在 优化 过 程 中 , 几 个 轨道 优化 同时 进行 可 以 覆盖 较 宽 的 
优化 范围 . 为 了 使 优化 更 简便 , 在 此 过 程 中 可 以 选择 元 余 的 或 低 打分 值 的 比 对 . 在 
下 面 介绍 的 选择 方案 的 三 个 阶段 中 , 最 高 打分 的 矩阵 为 数 不 多 , 他 们 之 间 相 互 比 对 
HIRE. 这 个 阶段 需要 重复 一 次 或 多 次 扩张 和 削减 循环 . 首先 进行 5 次 膨胀 模式 ， 
然后 进行 一 次 削减 模式 , 如 此 循环 . 每 次 循环 后 比 对 会 打分 有 所 改善 . 

(1) 播种 阶段 . 扫描 相似 子 结构 序列 得 到 所 有 非 覆 盖 六 肽 三 连 子 . 例如 子 结构 
对 (a,b) — (a’,b’), (a,c) — (a’,c’), (b,c) — (0,7) PUB RM=EF (a,b,c) —(a’, b,c’). 
这 些 种 子 产 生 于 所 有 比 对 结构 子 结构 , 例如 包含 在 三 连 子 中 的 “a-a”. 种 子 的 数量 
一 般 来 说 是 100. 强 相似 结构 对 产生 了 少 和 长 的 种 子 比 对 . 每 个 种 子 用 于 初始 化 轨 
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道 , 这 个 轨道 每 次 膨胀 、 削 减 循环 增加 一 个 的 长 度 . 如 果 两 个 轨道 的 等 价 确认 小 于 
50%% 的 同一 性 , 低 打分 的 一 个 被 消除 . 所 有 的 比 对 根据 打分 排序 , 最 高 打分 的 比 对 保 
留 下 来 . 

(2) 分 歧 轨 道 优 化 . 在 同时 进行 的 比 对 中 优化 连续 进行 , 直到 所 有 比 对 都 是 最 
优 值 , 即 直到 打分 在 20 个 膨胀 、 削 减 中 不 再 改善 . 

(3) 最 优 比 对 的 改进 . 上 一 个 阶段 的 比 对 基本 完成 后 , 结果 中 可 能 有 次 优化 的 
比 对 . 这 是 因为 有 些 片 段 很 难 全 部 完成 相关 四 肽 片段 的 转移 、 有 限 次 数 的 步骤 以 及 
高 的 相似 性 打分 . 为 了 找到 近 优 化 比 对 的 局 部 环境 , 最 好 的 比 对 用 于 初始 化 10 个 
平行 的 轨道 , 其 中 30 儿 的 比 对 为 随机 游 动 . 它们 在 第 二 步 时 得 到 优化 . 轨道 在 每 20 
个 膨胀 或 削减 循环 后 重新 初始 化 , 直到 得 到 最 优 结果 . 

DALI 算法 使 用 了 二 维和 矩阵 , 可 以 用 于 测定 了 Ca 碳 原子 坐标 的 蛋白 质 结构 比 
对 中 . 这 种 方法 完全 是 自动 进行 、 概 念 上 简单 、 鲁 棒 性 强 的 方法 . 虽然 蒙特 卡 罗 优 
化 方法 不 能 保证 得 到 全 局 优化 解 , 这 种 算法 还 会 得 到 精度 很 高 的 比 对 . 由 这 种 算法 
比 对 得 到 的 数据 库 FSSP 已 经 成 为 常用 的 蛋白 质 结构 域 数 据 库 之 一 . 


8.2.1.3 FSSP 数据 库 


FSSP 是 结构 相似 蛋白 质 家 族 (families of structurally similar proteins) 的 缩写 ， 
其 蛋白 质 来 源 于 蛋白 质数 据 库 . 目前 FSSP 数据 库 中 约 有 330 种 具 代 表 性 的 蛋白 
结构 家 族 . 收录 蛋白 标准 为 : 彼此 结构 同 源 性 范围 为 30%~70%. 小 于 30% RUA 
同 源 性 较 小 , 高 于 70%, 则 被 认为 结构 差别 不 大 1, 

FSSP 的 功能 大 体 可 以 包括 下 面 几 个 方面 83 : 

(1) 可 用 于 研究 和 蛋白质 折 登 进 化 中 保守 性 与 多 样 性 ; 

(2) 研究 结构 相似 蛋白 质 间 关 系 ; 

(3) 确定 蛋白 质 结构 的 核心 部 分 , 以 便 进 行 模 建 及 蛋白 质 改造 

(4) 检测 同 源 性 分 析 结 果 的 可 靠 性 ; 

(5) 蛋白 质 结构 统计 分 析 . 


8.2.2 CATH 蛋白 质 结构 域 数 据 库 
8.22.1 简介 


CATH 是 蛋白 质 结构 等 级 结构 域 分 类 数据 库 . 其 中 的 结构 类 晶体 分 辨 率 大 于 
3A. CATH 中 的 结构 域 来 自 PDB, 其 中 53% 的 结构 域 是 自动 定义 的 , 其 余 的 是 手工 
定义 的 48). 如 图 8-1 Bra. 

蛋白 质 的 结构 类 由 蛋白 质 进 化 产生 , 其 中 同一 个 结构 类 中 的 序列 相似 性 很 低 . 
因此 , 通过 于 已 知 结构 的 比较 来 确定 未 知 结构 的 功能 有 可 能 进行 . CATH 采用 半 自 
动 的 方法 来 获得 一 种 新 的 蛋白 质 结构 域 的 分 类 等 级 . 其 中 4 种 主要 的 层次 为 蛋白 
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TIM barrel Se pee Roll 
flavodoxin (4fxn) ate ase(1mblA1) 


图 8-1 CATH 数据 库 中 结构 层次 示意 图 
( 源 自 http://www.biochem.ucl.ac.uk/bsm/cath/cath_info.html) 


质 类 (protein class, C)、 结 构 体 系 (architecture, A)、 拓 扑 (topology, T) 和 同 源 超 族 
(homologous superfamily, H). 类 是 最 简单 的 层次 , 它 描述 了 每 个 结构 域 的 二 级 结构 
成 分 . 结构 体系 说 明了 有 二 级 结构 单位 构象 倾向 . 由 于 考虑 了 连续 的 连接 , 在 拓扑 
层 同 一 个 结构 体系 中 的 成 员 可 能 拓扑 类 型 完全 不 同 . 如 果 同 一 拓扑 中 的 结构 具有 很 
高 的 相似 性 并 且 具 有 类 似 的 功能 , 这 些 结构 被 认为 是 进化 上 相似 的 ， 那么 它们 就 归 
为 同一 个 同 源 超 族 (S). 

下 面 简要 介绍 CATH 的 4 种 主要 的 层次 M91, 

(1) 类 (CE): 二 级 结构 成 分 和 链接 方式 . 类 是 根据 蛋白 质 二 级 结构 成 分 和 链 
接 方式 确定 的 . 使 用 Michie 等 (1996) 方法 95° 类 中 90%% 的 结构 自动 归 类 , 其 余 的 
使 用 手工 方法 归 类 . C 层 是 结构 域 分 类 的 最 顶层 , 该 层 包 含 了 三 大 类 : aR. GBR 
和 ao-6 类 . a-8 类 虽然 可 以 分 开 构 成 /6 和 w+ 6 类 , 在 CATH SREP HTS 
虑 到 二 级 结构 之 间 的 连接 , 还 是 把 它们 放 在 一 起 . 另外 , CATH 还 把 包含 很 少数 量 
二 级 结构 的 结构 域 归 为 单独 的 一 类 . 

(2) 结构 体系 (A 层 ): 二 级 结构 和 独立 连接 的 总 排列 . 该 层 在 同一 类 中 区 分 结 
构 体系 , 但 不 区 分 不 同 的 拓扑 . 结构 体系 描述 了 和 蛋白质 折 和 登 形态 的 一 般 特 征 , 所 以 
它 包 含 的 成 分 有 时 很 杂 . 结构 体系 包含 不 同 连接 的 结构 , 这 些 结构 可 以 在 拓扑 中 区 
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AF. CATH 中 的 结构 体系 层 根 据 结 构 的 相似 性 由 手工 分 组 , 而 不 管 其 中 的 二 级 结 
构 的 大 小 和 数量 . 
(3) 拓扑 (T 层 ): HBR. BENAMBZA ST SSAP 结构 比较 算法 进行 分 
组 , 其 拓扑 类 别 根 据 总 的 二 级 结构 的 形状 和 连接 确定 . 其 中 的 结构 域 具 有 70 以 上 
的 SSAP 得 分 和 至 少 60% 的 大 蛋白 与 小 蛋白 的 匹配 . T 层 的 结构 具有 同样 的 总 折 
登 , 也 就 是 说 它们 具有 同样 数量 的 二 级 结构 和 排列 方式 , 而 且 连 接 这 些 二 级 结构 的 
链接 也 是 一 样 的 . 同一 个 拓扑 中 的 结构 域 是 相似 的 , 但 是 功能 可 能 不 同 . 

(4) 同 源 超 族 (H 层 ): 高 度 相似 的 结构 和 功能 的 相似 性 . 4H 层 的 结构 域 具有 
高 度 的 结构 上 的 相似 性 和 功能 的 相似 性 , 也 就 是 说 它们 可 能 来 自 同一 个 祖先 , 在 祖 
先 蛋白 中 它们 可 能 是 核心 包 或 活性 位 点 . 该 层 的 结构 域 同样 根据 SSAP 结构 域 比 
较 算法 进行 分 组 . 满足 下 面条 件 的 结构 域 属于 同一 个 同 源 超 族 : 

© 序列 同 源 性 大 于 35%, 较 大 蛋白 匹配 小 蛋白 的 比率 大 于 60%; 

@ SSAP 的 比较 得 分 大 于 80, 序列 同 源 性 大 于 20%; 

@@ SSAP 的 比较 得 分 大 于 80, 较 大 蛋白 匹配 小 蛋白 的 比率 大 于 60%. 

序列 家 族 (S 层 ): 极 高 的 序列 相似 性 和 高 度 的 结构 和 功能 相似 性 . 该 层 中 的 结 
构 域 具 有 大 于 35 儿 的 序列 相似 性 , 因此 可 以 推测 具有 极 高 的 结构 和 功能 相似 性 . 

关于 几 种 结构 类 别 在 不 同 层 次 上 所 包含 的 结构 域 种 类 见 表 8-1. 


表 8-1 CATH 的 4 种 主要 的 层次 包含 结构 域 数 量 
类 别 2.5.1 版 2.6.0 版 
A T H S A i, H S 
a 5 7 > 48 948 5 251 465 1402 
B fo. [o1g9)" ge 951 79. > ‘Yeo? - + Bit 1443 
a-B 12 368 648 2010 M4). 414° 706. aot 


few secondary structures 1 86 91 114 1 82 90 144 


8.2.2.2 蛋白质 结构 比 对 工法 ——SSAP 


在 比较 和 蛋白质 序列 的 过 程 中 , 这 种 算法 使 用 定义 氨基 酸 类 型 的 矩阵 来 确定 蛋白 
质 序列 之 间 的 关系 . 这 个 矩阵 提供 了 被 比较 的 序列 之 间 氨 基 酸 两 两 相似 性 打分 衡量 
方法 . 由 两 个 序列 所 有 的 氨基 酸 对 确定 的 矩阵 (打分 矩阵 ) 使 用 动态 规划 方法 来 发 
现 两 个 序列 的 最 佳 比 对 5 . 

由 于 进行 结构 比较 的 距离 矩阵 独立 于 残 基 的 坐标 框架 , 并 且 和 矩阵 中 包含 了 笛 
卡 儿 坐标 中 的 所 有 信息 , 这 种 矩阵 可 以 提供 接近 实际 结构 比较 问题 的 理想 描述 方法 
(不 包括 手 性 ), 为 了 能 够 比较 在 不 同 蛋白 质 高 级 结构 中 的 残 基 , 从 而 使 结构 矩阵 具 
有 通用 性 , 距离 矩阵 中 的 元 素 使 用 了 结构 中 残 基 的 相对 距离 , 即 固定 一 个 残 基 的 位 
置 , 计算 其 他 残 基 与 这 个 残 基 的 距离 . 这 样 , 仅仅 依赖 蛋白 质 高 级 结构 中 的 残 基 就 
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可 以 为 算法 定义 一 个 操作 环境 . 

1. 动态 规划 算法 

动态 规划 算法 是 用 于 寻找 两 个 线性 序列 优化 比 对 的 用 途 非 常 广泛 的 方法 , 这 种 
算法 能 够 计算 出 两 个 序列 组 成 成 分 之 间 的 关系 . 序列 之 间 的 关系 的 定义 可 以 是 种 间 
的 , 其 中 每 一 个 给 定 类 型 的 成 分 与 其 他 类 型 有 固定 的 关系 , 或 者 每 一 个 位 置 上 的 残 
基 对 有 唯一 的 关系 1971, 

对 于 两 个 段 序列 之 间 的 比 对 (图 8-2), 假设 比 对 开始 于 序列 的 C 端 (矩阵 的 左 
下 端 ), 分 值 向 序列 的 开始 的 方向 积累 (左上 ). 这 样 可 以 找到 最 高 的 分 数 (5), 通过 
追寻 路 径 可 以 找到 分 值 积 累 的 途径 . 计算 方法 方法 由 以 下 循环 方程 定义 : 


5 


Sij = Dig + Sitti —9 (8.2) 


max 
l=j+2—Np 


max Sk.j41 一 
k=i+2—Na Jt Tg 


其 中 3 是 矩阵 中 的 任意 元 素 , 是 序列 的 两 个 成 员 之 间 关 系 的 衡量 方法 , 9 是 罚 分 
常数 . 序列 A. BIKE Na 和 Ng. 最 大 行 和 列 的 计算 效果 值 保留 下 来 , 并 不 计 ， 
算 每 一 步 的 值 . 最 后 效果 表示 为 : S=max{---}. 


序列 A 1 一 


序列 B 


< 


图 8-2 ”基本 动态 规划 算法 ( 源 自 : Taylor W R, Orengo, C A. 1989) 


2. 距离 比较 方法 
在 最 简单 的 公式 中 , 这 种 方法 只 考虑 两 种 结构 的 C。 原子 以 及 它们 之 间距 离 的 
比较 . 两 对 残 基 之 间距 离 比 对 打分 公式 如 下 : 


$= a/ (|Adi; = B ak =e b) 


8.2 BARA RAE -17- 


其 中 s 是 距离 比较 打分 , d 是 蛋白 质 A 中 的 原子 1 和 7 以 及 原子 B 中 的 原子 大和 
1 之 间 的 距离 . 分 母 加 上 常数 的 主要 原因 是 防止 分 母 为 零 . 常数 a 用 来 限制 可 能 
的 最 高 分 . 两 个 相互 比较 的 序列 在 比 对 打分 过 程 中 , 所 有 的 距离 都 用 上 面 的 方法 比 
较 . 最 后 总 的 得 分 为 各 个 比较 得 分 的 和 


+n 
ot = 3 al (|*dii+m — ?dk,k+m| + 6) (8.3) 
如 果 两 个 位 置 的 总 的 比较 得 分 为 Sik, 那么 距离 比较 的 次 数 为 2m, 结构 A 和 结 
WB 中 的 原子 ;i 和 大 分别 为 每 次 比较 的 中 心 . 定义 了 两 个 位 置 的 得 分 后 , 由 动态 
规划 算法 来 计算 所 有 位 置 的 最 优 比 对 . 
另 一 种 距离 比较 的 方法 使 用 了 Ce 原子 之 间 的 距离 (其 中 甘氨酸 使 用 了 虚拟 的 
Cs RT). 这 种 方法 增加 两 个 残 基 之 间 差 异 的 程度 , 特别 是 8 折 登 两 边 的 残 基 , 从 
残 基 的 视角 来 看 , 增加 了 分 离 的 差异 . 
除了 蛋白质 高 级 结构 中 残 基 位 置 完全 匹配 的 情况 外 , 距离 矩阵 匹配 方法 都 会 遇 
到 在 序列 中 插入 和 删除 残 基 的 问题 . 基本 的 比 对 方法 虽然 对 于 局 部 比 对 运算 ( 即 方 
程 (7.3) 中 的 ”很 小 ) 已 经 足够 用 了 , 但 是 对 于 比较 的 范围 (—n 2) +n) 路 越 了 插 
入 或 删除 的 不 连续 区 域 时 , 这 种 方法 就 会 误差 很 大 . 
动态 规划 算法 可 以 解决 这 个 问题 , 并 产生 两 个 被 比较 的 结构 之 间 的 最 佳 比 对 . 
方程 (8.3) 转换 为 
Sie = max {a/ (|i; 一 Edkl|) 一 b} (8.4) 
其 中 Six 是 蛋白 质 A 与 蛋白 质 B 之 间 比 较 的 最 大 得 分 . Six 是 高 层 ( 残 基 ) HO 
阵 的 一 个 因素 , 这 个 矩阵 包含 了 S PEAR (A 和 B) 序列 中 所 有 匹配 残 基 之 间距 
离 比 对 的 值 . 常数 a 的 取 值 一 般 是 50, 常数 ”的 取 值 不 大 于 5. 
如 果 仅 有 最 高 得 分 Six 进入 高 层 ( 残 基 ) 水 平 矩 阵 , 包含 在 底层 GER) 比 对 中 
的 信息 就 会 丢失 . 这 种 底层 的 信息 可 以 提高 高 层 比 对 的 准确 性 . 为 了 减 小 比 对 的 偏 
Ze, 在 高 层 水 平 矩 阵 相 应 元 素 的 沿 着 低级 水 平 矩 阵 追 溯 路 径 上 的 所 有 值 都 会 被 累 
mm. 
3. 向 量 比较 方法 
距离 比较 方法 仅 依赖 于 原子 间 的 距离 , 距离 接近 得 分 就 高 , 没有 考虑 原子 的 相 
WAR, 所 以 具有 一 定 的 局 限 性 . 为 了 不 丢失 原子 间 方 向 的 信息 , 向 量 比 较 方 法 使 
用 原子 间 的 向 量 进行 比较 , 而 不 仅仅 使 用 原子 间 的 距离 . 由 于 这 种 方法 在 不 同 坐 标 
框架 下 考虑 了 结构 之 间 不 同方 向 上 的 位 置 , 原子 间 的 向 量 必须 在 每 一 个 残 基 的 局 部 
参照 框架 下 定义 . 这 样 每 一 个 残 基 的 坐标 框架 很 容易 地 从 a 碳 原子 的 几何 结构 中 
得 到 . 局 部 的 X HHA N—C 向 量 定义 , 假设 的 了 轴 有 Cp- H 向 量 定义 . 2 轴 定 义 
为 与 它们 相互 垂直 的 方向 , $Y 轴 由 X 和 2 轴 的 垂直 方向 再 定义 , 以 确保 正 交 . 
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比较 向 量 的 与 方程 (2) 的 等 价 形式 为 
3 一 a/ ((lAVi 一 Br 十 b) 
其 中 Y 是 原子 之 间 的 向 量 . 常数 a 为 50, WS DH 2. 
向 量 比较 方法 利用 了 三 个 距离 标示 , 一 个 标示 占用 一 维 , 三 个 标示 产生 了 一 个 
合并 的 距离 方法 . 最 有 用 的 度量 方法 是 氨基 酸 残 基本 身 的 属性 . 这 种 信息 是 矩阵 中 
最 重要 的 信息 


Sy. = max { (wDrine +a) / ((|AVis 一 BY, |)” + b) 


其 中 Dxy 是 由 Dayhoff 矩阵 为 了 交换 氨基 酸 类 型 X AY 定义 的 值 , w 是 确定 序 
列 和 结果 相对 贡献 的 权重 . 


8.2.3 SCOP 数据 库 


SCOP 数据 库 定义 了 已 知 蛋 白质 详细 的 、 容 易 理解 的 结构 和 进化 关系 53.154 
几乎 所 有 的 蛋白 质 都 与 其 他 蛋白 质 具 有 一 定 程度 的 结构 相似 性 . 如 果 两 个 蛋白 质 具 
有 非常 类 似 的 结构 , 它们 很 可 能 具有 共同 的 祖先 . 这 种 关系 的 知识 对 于 分 子 生物 学 
和 其 他 领域 的 科学 具有 重要 的 贡献 ， 它 是 理解 蛋白 质 的 进化 和 结构 的 核心 SCOP 
数据 库 依据 蛋白 质 的 进化 关系 和 三 维 结构 特征 进行 蛋白 质 结构 分 类 ， 较 大 和 蛋白质， 
的 结构 域 根 据 进 化 和 结构 关系 等 级 确认 它们 在 数据 库 中 的 位 置 . 

(1) 家 族 .满足 下 面 两 个 标准 之 一 的 蛋白 质 可 以 收录 进 一 个 家 族 : 第 一 , 所 有 | 
蛋白 质 残 基 的 同 源 性 都 要 大 于 30%; 第 二 , 低 于 30% 同 源 性 的 蛋白 质 序列 功能 和 结 
构 必须 很 相似 

(2) 超 家 族 . 虽然 序列 同 源 性 比较 低 , 但 是 如 果 结构 和 功能 特征 可 能 具有 相同 
的 进化 祖先 的 蛋白 质 放 在 同一 个 超 家 族 . 

(3) SERRE. 如 果 家 族 和 超 家 族 中 的 蛋白 质 的 主要 二 级 结构 具有 相同 组 织 形 
式 的 拓扑 链接 , A CANE CORE. 相同 折 驮 里 的 不 同 蛋白 质 具有 不 同 大 小 
和 形状 的 二 级 结构 的 外 围 因 子 和 转弯 区 域 . 放 在 同一 个 折 倒 类 中 的 蛋白 质 的 结构 相 
似 性 . 

(4) 类 .类 包含 了 共同 折枝 . 大 多 数 的 折 短 都 根据 它们 的 二 级 结构 成 分 属于 5 
个 类 中 的 一 个 : 

© 螺旋 . 这 种 结构 基本 由 am 螺旋 构成 

@ He. 这 种 结构 基本 由 8 HAR 

@ 螺旋 和 折 蠢 . 这 种 结构 主要 由 0 螺旋 和 2 折 春 交织 在 一 起 . 

© WANE. 这 种 结构 主要 由 0 螺旋 和 6 折 春 相互 分 离 的 . 

©) 多 重 结构 域 . 这 种 结构 中 不 同 折叠 的 结构 域 目前 还 没有 找到 同 源 结构 域 
其 他 的 不 常 出 现 的 蛋白 质 、 理 论 模 型 、 核 酸 和 糖 类 放 到 其 他 类 里 


EN 


8.3 蛋白 质 结 构 域 的 支持 向 量 机 预测 方法 . 119 . 


8.2.4 SCOP. CATH #0 FSSP 的 关系 


三 种 分 类 方法 SCOP. CATH 和 DALI HFHBHM ABARAT. 很 多 结构 
可 能 在 一 个 系统 中 定义 为 一 种 折 簿 ,在 另外 一 个 系统 中 定义 为 一 个 完全 不 同 的 类 
别 . 对 于 结构 域 和 折 和 县 的 不 同 定义 是 两 个 数据 库 的 主要 分 歧 053]. 

DALI 结构 域 词典 全 部 自动 定义 和 分 类 结构 域 459, 该 方法 依据 PUU 算法 定 
义 结构 域 hb47,154. DALI 算法 用 于 结构 域 相似 性 的 比较 过 程 中 首先 使 用 一 个 快速 算 
法 把 二 级 结构 子 序 列表 示 成 向 量 , 然后 使 用 一 个 慢 速算 法 比较 残 基 的 中 心 点 位 置 . 
FSSP 数据 库 对 于 蛋白 质 结构 域 的 分 类 是 根据 DALI 打分 得 到 的 . 

SCOP 是 最 早 把 蛋白 质 结 构 域 进行 分 类 的 数据 库 25. SCOP 中 的 几乎 全 部 分 
类 过 程 都 是 依靠 有 声望 的 科学 家 通过 人 工 方法 进行 的 SCOP 的 目的 是 通过 蛋白 
质 序列 结 构 关 系 建 立 一 种 研究 蛋白 质 进 化 的 工具 . 在 确定 结构 域 、 折 倒 和 同 源 关系 
it, SCOP 的 分 类 原则 侧重 于 进化 关系 7). 这 个 数据 库 被 认为 是 蛋白 质 结构 分 类 
的 标准 . 

CATH 数据 库 使 用 了 人 工 方法 和 自动 方法 相互 结合 来 定义 和 分 类 蛋白 质 结构 
域 . CATH 依赖 三 个 自动 分 类 方法 的 一 致 性 来 把 蛋白 质 分 解 成 为 结构 域 . 这 种 方法 
有 效 地 定义 了 蛋白质 序 列 中 的 大 约 53 儿 结构 域 , 其 中 没有 一 致 性 的 序列 的 结构 域 
通过 人 工 方法 定义 . 虽然 蛋白 质 序列 的 同 源 性 主要 由 一 级 序列 确定 , 但 是 结构 相似 
性 很 高 的 蛋白 质 的 距离 矩阵 之 间 的 匹配 性 也 可 以 定义 蛋白 质 序列 的 同 源 性 ， 同 源 
性 低 的 折叠 类 的 结构 域 基于 CORAH1'65] 或 SSAP 算法 进行 拓扑 层 的 分 类 . 
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8.3.1 ”蛋白质 结构 域 预测 中 的 样本 集 选 择 


因为 样本 集 构 成 了 学 习 机 和 分 类 器 的 工作 环境 , 所 以 样本 集 的 选择 很 重要 . 根 
据 统 计 学 习 理论 , 样本 集中 的 元 素 应 该 独立 同 分 布 , 即 样本 集中 的 样本 是 信息 非 元 
余 的 , 通过 训练 非 元 余 样 本 的 特征 向 量 构造 出 的 SVM 才 具 有 最 好 的 泛 化 性 . 然而 
从 和 蛋白质 结 构 域 折 堆 类 型 预测 这 个 具体 问题 来 看 , 目前 还 没有 构造 非 元 余 样 本 集 的 
统一 标准 . 考虑 到 样本 集中 的 元 素 既 要 有 较 大 的 非 同 源 性 又 要 有 足够 的 数据 量 , 实 
验 中 我 们 使 用 CATH 数据 库 的 拓扑 结构 层 (T 层 )、 同 源 超 族 (H 层 ) 以 及 序列 家 族 
($ 层 ) 的 结构 域 作 为 数据 集中 的 元 素 . 

CATH 中 的 蛋白 质 主要 分 为 四 个 层次 : HBA (class level, C). AMAR 
(architecture level, A)、 拓 扑 结构 (topology level, T) 和 同 源 超 族 (homologous su- 
perfamily level, H). 在 此 基础 上 , 比 同 源 超 族 更 低 的 层 是 序列 家 族 (sequence family, 
S). 折 登 类 型 (C) 描述 了 蛋白 质 二 级 结构 的 成 分 . 在 这 个 水 平 上 , 结构 域 被 分 为 四 
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大 类 型 : 以 a 螺旋 为 主 的 类 (mainly a)、 以 8 折 和 县 为 主 的 类 (mainly 9)、a 螺旋 
和 3 $f#2K (alpha beta, a-6)( 其 中 包括 w/6 和 aw + 8 结构 ) 以 及 含 少量 的 二 级 结 
构 的 小 型 二 级 结构 类 (few secondary structures, fss). 根据 Taylor W. R. 和 Orengo, 
CA 的 定义 在 a 螺旋 为 主 的 类 中 的 二 级 结构 主要 是 a 螺旋 , 而 8 HB CB He 
为 主 的 类 的 二 级 结构 中 占有 数量 优势 21. a/8 类 结构 域 中 的 a 螺旋 和 8 HBV 
3-0-8 为 单位 存在 , 其 中 的 6 PBA SCH. 在 ac+8 BACH, a 螺旋 和 8 HTB 
空间 上 相互 分 离 , 分 别处 在 和 蛋白质 的 不 同 部 位 . 结构 体系 (A) 描述 了 蛋白 质 二 级 结 
构 和 独立 连接 的 大 致 形态 . 拓扑 结构 层 (T) 根据 蛋白 质 二 级 结构 的 数量 和 链接 方 
式 来 遵 选 结构 域 . 在 这 个 水 平 上 结构 域 中 的 二 级 结构 具有 大 致 相同 的 折合 方式 , 也 
就 是 说 它们 包含 的 二 级 结构 数量 相同 、 二 级 结构 的 排列 方式 相同 、 这 些 二 级 结构 
的 链接 结构 也 相同 . 拓扑 结构 虽然 具有 相似 的 结构 但 其 功能 不 同 . 结构 和 功能 都 相 
似 的 结构 域 共同 构成 了 一 个 同 源 超 族 (1). 序列 家 族 中 的 结构 域 的 序列 同 源 性 大 于 
35%. 因为 在 进化 过 程 中 结构 的 保守 性 比 序列 的 保守 性 更 强 , 所 以 大 于 35 名 的 序列 
同 源 性 表示 了 很 高 的 结构 同 源 性 和 功能 的 相似 性 . CATH 数据 库 可 以 在 线 得 到 (地 
址 : http://www.biochem.ucl.ac.uk/bsm/cath/index.html). 

需要 补充 的 是 结构 域 由 超过 一 个 的 序列 片段 构成 的 情形 很 普遍 . 实验 中 当 出 现 
这 种 情况 时 , 我 们 只 在 每 个 片段 的 内 部 取样 本 . 也 就 是 说 , 我 们 把 具有 多 个 片段 的 ， 
结构 域 序列 中 的 每 个 片段 分 别 进行 向 量化 , 再 把 这 些 向 量 加 在 一 起 , 然后 进行 归 一 
化 . 

我 们 分 别 取 CATH 数据 库 2.5.1 版 的 拓扑 层 (topology level, T) 的 820 个 样 
本 、2.6.0 版 同 源 超 族 层 (homology superfamily level, H) 的 1572 个 样本 以 及 2.6.0 
版 序列 家 族 (sequence family level, S) 的 a. 6 和 au-8 类 的 5859 个 样本 加 上 few 
secondary structures 中 的 结构 域 层 (domain level, D) 的 1098 个 样本 合并 成 的 混合 ， 
RAR. 最 后 一 个 样本 集 之 所 以 从 两 个 层次 来 取样 本 的 主要 目的 在 于 防止 产生 非 
平衡 数据 集 . 从 两 样本 集 样 本 的 统计 数据 来 看 , 每 个 样本 集中 的 w、8 AaB 类 中 | 
元 素 的 长 度 范围 与 平均 长 度 差 别 不 大 , 而 它们 与 fs 中 元 素 的 长 度 范 围 与 平均 长 度 
则 差别 较 大 ( 见 表 8-2). 


8.3.2 ”编码 方法 


结构 域 的 氨基 酸 残 基 序 列 转化 成 为 输入 空间 的 向 量 的 过 程 称 作 编码 . 在 本 实 
验 中 使 用 同一 样本 集 分 别 利用 一 肽 频数 编码 方法 、 二 肽 频数 编码 方法 和 三 肽 频数 
编码 方法 编码 产生 三 组 向 量 样本 , 即 一 肽 频数 向 量 样本 集 、 二 肽 频数 向 量 样本 集 和 
三 肽 频数 向 量 样本 集 ， 这 几 种 方法 都 属于 多 肽 频数 编码 方法 ， 一 肽 频数 实际 上 就 
是 每 个 残 基 在 蛋白 质 序列 中 出 现 的 频率 , 由 一 肽 频数 编码 方法 产生 的 向 量 为 20 HE. 
这 种 编码 方法 仅仅 考察 序列 的 氨基 酸 残 基 成 分 .二 肽 是 氨基 酸 残 基 对 , 三 肽 是 连 
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# 8-2 2.5.1 版 拓扑 层 (T-level). 2.6.0 版 同 源 超 族 层 (H-level) 和 序列 家 族 层 
(S-level) 层 的 各 个 折 丢 类 中 结构 域 氨基 酸 残 基 序列 的 长 度 范 围 和 平均 长 度 ( 单 位 : 残 基 ) 


Ril 结构 域 数量 长 度 范 围 平均 长 度 
a 类 227 38~740 155 
拓扑 层 * BR 139 33~574 145 
a-B 类 368 36~534 170 
fss 86 16~119 oT 
ak 465 21~740 123 
同 源 超 族 层 #* BR 311 22~571 143 
a-B 类 706 30~759 156 
fss 90 16~105 57 
a 类 1402 11~872 129 
序列 家 族 层 *** BR 1143 19~582 131 
a-3 类 3014 28~759 171 
fss 1098 16~119 66 


注 : 数据 来 自 互联 网 , 地 址 : Betp:] ww biocheth uth de uk een cath /rolouss horn 
*: 源 自 2.5.1 版 本 ; **: YEA 2.6.0 版 本 ; **##: 样本 来 自 结构 域 层 . 


续 三 个 氨基 酸 残 基 的 组 合 . 因为 二 十 个 氨基 酸 残 基 可 以 构成 400 个 可 能 的 二 肽 组 
合 、8000 个 可 能 的 三 肽 组 合 , 所 以 所 有 可 能 的 二 肽 可 以 构成 一 个 400 维 的 输入 空 
间 、 所 有 可 能 的 三 肽 可 以 构成 一 个 8000 的 输入 空间 . 这 两 种 编码 方法 不 仅 可 以 考 
察 序 列 的 氨基 酸 成 分 , 还 考察 了 序列 中 相 邻 残 基 的 关系 . 二 肽 频数 和 三 肽 频数 编码 
方法 在 第 7 章 中 已 经 进行 了 详细 的 介绍 : 


8.3.3 ”拓扑 预测 准确 率 的 评估 方法 


为 了 客观 地 评估 预测 准确 率 , 实验 结果 使 用 交叉 验证 试验 进行 结果 准确 率 的 评 
fi. 交叉 验证 的 功能 在 于 缩小 由 一 次 随机 选择 训练 和 检测 样本 集 引 起 的 预测 结果 
波动 . 交叉 验证 主要 分 为 三 种 类 别 : 单一 检验 集 分 析 、 子 样本 检验 和 Jackknife 检测 
95) FF ET Jackknife 检测 的 数据 集 轮流 作为 训练 集 和 检测 集 , 所 以 每 一 个 样本 
都 可 以 分 别 作为 检测 样本 和 训练 样本 ， 交叉 验 证 试验 的 基本 方法 是 首先 把 包含 n 
个 样本 的 样本 集 平 均 分 成 上 个 子 集 . 然后 每 个 子 集 分 别 作为 检测 集 , MHA k-1 
个 子 集合 并 成 为 训练 集 . 经 过 大 次 训练 和 检测 , 得 到 结果 的 平均 值 作为 最 终 预测 的 
准确 率 . 这 样 做 的 目的 就 是 要 尽量 减 小 由 于 随机 选择 检测 集 和 训练 集 预 测 结果 的 偏 
差 . 

如 果 计 算 能 力 允 许可 以 使 用 Jackknife 试验 进行 交叉 验证 . Jackknife 试验 又 称 
为 全 面 交 叉 验 证 试验 , 这 种 试验 把 包含 有 n 个 样本 的 样本 集 分 成 ” 个子 集 , 这 样 每 


人 丰 子 集中 就 仅 包含 有 一 个 样本 . 然后 , 每 个 子 集 都 被 由 其 余 rn — 1 个 子 集 构成 的 训 


练 集训 练 而 成 的 分 类 器 分 类 . 这 样 整 个 样本 集中 的 每 一 个 样本 都 被 预测 了 一 次 , 所 
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以 全 面 的 Jackknife 试验 预测 准确 率 是 正确 分 类 样本 的 百分比 . Jackknife 检测 的 缺 
点 在 于 当 样 本 很 小 的 时 候 会 出 现 信息 丢失 和 不 准确 的 检测 结果 . 当 出 现 这 种 情况 时 
可 以 使 用 蒙特 卡 罗 抽 样 产 生 模拟 的 样本 . 

实验 中 对 于 取 自 CATH 数据 库 2.5.1 版 本 中 拓扑 层 的 820 个 结构 域 和 2.6.0 版 
本 中 同 源 超 族 的 1572 个 结构 域 和 序列 家 族 中 的 6957 个 结构 域 分 别 构成 样本 集 . 为 
了 能 够 搜索 到 最 优 参数 并 且 使 用 最 短 的 时 间 , 在 优化 参数 的 过 程 中 使 用 了 7 重 交叉 
验证 试验 来 获得 最 优 参数 , 之 后 进行 Jackknife 试验 检测 该 参数 所 能 得 到 的 实际 预 
测 准确 率 . 这 么 做 的 原因 在 于 使 用 7 重 交 叉 验 证 试验 进行 参数 优化 使 用 的 时 间 仅 为 
使 用 Jackknife 试验 进行 参数 优化 时 间 的 百 分 之 一 到 千 分 之 一 , 同时 使 用 Jackknife 
试验 进行 准确 率 检 测 又 可 以 得 到 真实 的 预测 准确 率 . 使 用 7 重 交 叉 验 证 试验 与 使 
用 Jackknife 试验 进行 参数 优化 相 比 , 缺点 在 于 可 能 得 不 到 最 优 参数 和 最 高 预测 准 

对 于 样本 进行 预测 的 准确 率 是 由 训练 和 检测 样本 本 身 的 性 质 决定 的 , 跟 样 本 中 
各 类 数据 提供 的 信息 中 是 否 挫 有 噪音 点 直接 相关 . 从 技术 上 来 说 , 在 既定 样本 的 前 
提 下 要 想 通过 支持 向 量 机 方法 获得 最 高 预 训 准 确 率 就 要 对 进行 分 类 的 超 平面 进行 
最 优化 . 选择 最 优 的 参数 才能 得 到 最 优 的 分 类 超 平面 . 使 用 Jackknife 试验 进行 参 


数 的 优化 无 疑 是 最 理想 的 , 但 是 付出 的 计算 成 本 极为 高 晶 . 下 面试 验 以 拓扑 层 820 


— 


个 样本 的 一 肽 频数 向 量 为 实验 材料 , 评 佑 与 比较 在 最 优 参数 搜索 过 程 中 多 重 交叉 验 ， 


证 试验 与 全 面 Jackknife 试验 的 优 缺 点 . 

实验 中 选 定 径 向 基 内 核 , 红帽子 Linux9.03 系统 以 及 Libsvm2.4 软件 . 硬件 系 
统 核心 组 件 为 一 个 Inter 奔腾 4 主 频 2.4G 的 CPU, 512M 的 DDR AF. 实验 包括 
=H: 

(1) 运用 7 重 交 叉 验 证 试验 方法 寻找 最 优 参数 ; 

(2) 运用 28 重 交 叉 验 证 试验 方法 寻找 最 优 参数 ; 

(3) 运用 Jackknife 试验 方法 寻找 最 优 参数 . 

一 肽 频数 实际 上 就 是 结构 域 一 级 序列 中 各 个 残 基 出 现 的 频率 , 在 三 步 实 验 中 使 


用 7 重 交 叉 试验 的 预测 结果 和 运算 时 间作 为 基准 . 为 了 对 多 重 交 叉 验 证 的 优化 结 。 


果 有 一 个 客观 的 评价 , 实验 中 使 用 了 Jackknife 试验 进行 最 优点 的 最 终 多 元 预测 准 
确 率 比 较 . 实验 是 在 400 对 (C, 7) 参数 中 寻找 最 优 参数 , 


首先 运用 7 重 交 叉 验 证 试验 方法 寻找 最 优 参数 .7 重 交叉 验证 试验 的 各 个 参 


数 所 确定 分 类 超 平 面 的 分 类 准确 率 形成 的 轮廓 见 图 8-7. 优化 所 花费 的 计算 时 间 为 


12 分 钟 . 图 8-8 是 计算 由 图 8-7 给 出 的 最 优点 的 Jackknife 试验 预测 准确 率 的 屏幕 
截图 , BEA 54.7561%. 
然后 , 运用 28 重 交 叉 验 证 试验 方法 寻找 最 优 参数 . 使 用 命令 


8.3 蛋白 质 结构 域 的 支持 向 量 机 预测 方法 . 123 - 


$python grid.py —log2c 0,2,0.1 -log2g 5,7,0.1 -~v 28 文件 名 


这 个 命令 与 前 面 命令 的 区 别 仅 在 于 由 “v 28” RET “v7, 得 到 的 优化 轮廓 图 见 
图 8-3. 


aan 


lg(gamma) 


8-3 拓扑 层 的 820 个 样本 的 一 肽 频数 输入 样本 集 的 28 重 交 叉 验 证 试验 优化 结果 


进行 本 次 优化 所 花费 的 时 间 为 47 分 钟 , 约 为 上 次 优化 所 花费 时 间 的 4 倍 , 这 
余 比 值 约 等 于 交叉 验证 重 数 比 的 28/7. 对 计算 得 到 的 最 优点 进行 Jackknife 试验 得 
到 的 预测 准确 率 为 55.3659%. Jackknife 试验 结果 的 屏幕 截图 见 图 8-4. 


EWE : Sree ges 
| TEFS finished, ican = 525 
Jou = 0.217096 
obj = -107.023511, rho = -0.437103 

SV = 223, nBSV = 14 


= 
per timization finished, #iter = 438 
= 0.261548 
os = -92.898730, rho = -0.456894 
= 194, nBsSv = 11 


Jorcinizacion finished, #iter = 410 
= 0.406911 

obi = -95.525536, rho = -0.391898 

_ = 182, nBsv = 12 


Jovcintzacion finished, #iter = 1274 
= 0.525479 
& = -435.534336, rho = 0.204376 
SV = 442, nBsv = 192 


有 Einished，#icer = 1238 
= 0.444008 


obj = -312.365332, rho = 0.016087 
SV = 368, nBsv = 112 


Lie 

optimization finished, #iter = 641 
mw = 0.381927 

bs = -175.356116, rho = -0.059167 
SV = 245, nBsv = 60 


|fAccuracy = os (0/1) 
则 cross Validation Accuracy = 55.3659% 上 
中 [supnesun libsvm-2.4)$ ./svm-train -c 2 -g 97.0058602567 -v 820 1-2-3- afl cl 


图 8-4 拓扑 层 的 820 个 样本 的 一 肽 频数 输入 样本 集 在 C=2)°, y=2°° 时 , 通过 Jackknife 
试验 得 到 的 预测 准确 率 
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最 后 , 运用 Jackknife 试验 方法 寻找 最 优 参数 . 使 用 命令 
$python grid.py —log2c 0,2,0.1 -log2g 5,7,0.1 —v 820 文件 名 
进行 Jackknife 试验 优化 所 花费 的 时 间 为 26 小 时 零 8 分 钟 , AW 7 重 交 叉 验 证 试 


验 的 优化 所 花费 时 间 的 131 倍 , 这 个 值 与 8201/7 的 值 大 体 相 当 . Jackknife 试验 得 到 ， 


的 预测 准确 率 为 56.4634%. 
比较 图 8-7、 图 8-3 和 图 8-5, 可 以 发 现 三 张 图 的 预测 准确 率 轮 廊 线 明 显 不 同 ， 


最 优 区 域 (绿色 线 ) 也 不 一 样 , 通过 最 优点 的 Jackknife 试验 证 实 图 8-7 给 出 的 最 
优点 的 实际 分 类 准确 率 最 低 , 图 8-3 给 出 的 最 优点 的 实际 分 类 准确 率 介 于 中 间 , 而 ， 


图 8-5 所 给 出 最 优点 的 分 类 准确 率 最 高 . 从 7 重 交叉 验证 优化 试验 到 Jackknife 优 
化 试验 , 预测 准确 率 提高 了 1.7073%. 


1-2-3-4 


Ig(C) 
图 8-5 拓扑 层 的 820 个 样本 的 一 肽 频数 输入 样本 集 的 Jackknife 优化 结果 


实验 表明 , 在 其 他 条 件 不 变 的 情况 下 , 寻找 最 优 参数 所 花费 的 计算 时 间 与 所 用 


的 交叉 验证 的 重 数 成 正比 . 


另外 , 为 了 比较 输入 空间 中 的 样本 个 数 与 维 数 与 运算 成 本 的 关系 , 我 们 在 实验 


中 还 记录 了 其 他 部 分 实验 所 花费 的 计算 时 间 . 在 其 他 实验 条 件 不 变 的 情况 下 , 即便 


件 系统 和 软件 系统 不 变 , 使 用 7 重 交 叉 运 算 , 搜索 了 400 个 参数 (C, 7). 其 中 计算 


1572 个 样本 的 一 肽 频数 向 量 的 优化 参数 的 时 间 为 49 分 钟 , 计算 820 个 样本 的 二 肽 


频数 向 量 的 优化 参数 时 间 为 112 分 钟 . 根据 以 上 实验 数据 以 及 以 往 实 验 的 经 验 可 
以 推断 当 样 本 数量 为 原来 的 ” 倍 时 , 花费 的 计算 时 间 约 为 原来 的 ”; 当 输 入 空间 


向 量 的 维 数 为 原来 的 20 倍 时 , 所 花费 的 计算 时 间 约 为 原来 的 10 倍 . 

从 上 面 的 分 析 可 以 得 出 , 当 样 本 数量 和 输入 空间 中 向 量 维 数 增 加 时 , 所 花费 的 
计算 成 本 急剧 上 升 . 虽然 全 面 Jackknife 试验 能 够 得 到 最 优 的 准确 率 , 但 是 当 输 入 
向 量 维 数 较 高 、 数 量 较 大 时 计算 成 本 将 难以 负担 , 因此 使 用 rn 重 交 叉 验证 试验 还 是 
十 分 必要 的 , 其 中 m” 一 般 小 于 10. 


ae 
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8.3.4 ”分 类 器 设计 与 软件 使 用 方法 


蛋白 质 折 县 类 型 预测 的 直接 目的 在 于 预测 CATH 数据 库 中 的 结构 域 属 于 C 层 
的 何 种 类 别 . 由 于 CATH 数据 库 在 C 层 结构 域 分 为 a 螺旋 、8 TB. 0-8 以 及 fss 
四 种 折 县 类 型 , 所 以 对 结构 域 折 登 类 型 的 预测 是 四 元 预测 . 第 3 章 和 第 5 章 已 经 
pA, 支持 向 量 机 通过 多 次 二 元 分 类 实现 多 元 分 类 . 实现 多 元 分 类 的 二 元 分 类 器 
AE 一 对 一 分 类 器 和 “一 对 多 "分 类 器 . Libsvm BLED 个 “对 一 二 
元 分 类 器 利用 投票 法 多 元 分 类 . 投票 法 是 在 对 一 个 检测 样本 的 预测 时 , 把 每 一 次 二 
元 分 类 看 成 是 一 次 投票 过 程 , 检测 样本 被 归 为 得 票 最 多 的 类 . Libsvm 软件 包 自动 
实现 多 元 分 类 , 这 个 过 程 中 不 用 人 为 干预 , 最 后 总 的 预测 结果 是 根据 六 个 “一 对 一 ” 
的 二 元 分 类 器 的 预测 结果 通过 投票 法 得 到 的 . 

然而 , AS eA AT BRA A ZINA, 我 们 实验 中 还 构建 了 六 个 “一 对 
— 的 二 元 分 类 器 和 四 个 “一 对 多 ”的 二 元 分 类 器 . 这 里 所 谓 “ 一 对 一 ”是 指 四 种 
折 登 类 型 中 两 两 分 别 编 组 分 类 ,“ 一 对 多 ”是 指 四 种 折 和 登 类 型 中 的 每 一 种 类 型 分 别 
跟 其 他 三 种 的 组 合 进行 编组 分 类 . 六 个 “一 对 一 ”的 分 类 器 包括 : a vs. 68、a vs. 
EBPaQ vs. fss. GB vs. a-G. B vs. fss 和 a-G vs. fss. 四 个 “一 对 多 ”的 二 元 分 类 器 包 
揪 : a vs. 其 他 (包括 : 6、a-6 和 fss)、B vs. 其 他 (包括 : w、a-6 和 fss). a-G vs. 其 
他 (a. G 和 fss) 和 fss vs. 其 他 (包括 a. B 和 a-D)， 

实验 中 选择 了 RBF 核 函 数 来 把 输入 空间 中 的 向 量 映射 到 高 维特 征 空间 中 


kop (2, 25) = exp (-7 la; = 写作 ) oa (8.5) 


式 中 的 7 为 影响 高 维 空间 中 的 特征 向 量 的 坐标 . 
同时 选择 了 C-SVM 样本 分 类 器 


l 
ed? ip 
min 5w wrey (8.6) 
s.t. yi (w’ O(2z;) + b) >1-§& (8.7) 
| Ae as aria | (8.8) 


(8.3) 式 中 的 C 影响 由 支持 向 量 确定 的 边界 的 大 小 . 
在 上 面 选择 的 条 件 下 , 可 以 调节 的 参数 为 (8.5) 式 中 的 y 和 (8.6) 中 的 C. 
Libsvm 软件 包 可 以 在 linux 操作 系统 中 使 用 . 其 中 对 (8.5) 式 中 的 y 和 (8.6) 
中 的 C 进行 优化 的 子 程序 为 “grid.py”. 使 用 的 命令 为 


$python grid.py 文件 名 


其 中 python 是 图 形 处 理 的 软件 名 ,“grid.py” 是 Libsvm 中 进行 参数 优化 的 软件 名 . 
这 个 命令 可 以 通过 逐 格 搜索 的 方法 确定 最 优 的 C 和 > 的 取 值 . 由 于 Libsvm 使 
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用 了 特有 的 对 数 取 值 方法 , 所 以 参数 C 和 y 的 实际 取 值 步 长 的 增长 序列 为 : 2-5 
2-5, …,, 25 ..., 即 每 次 C 和 y 实际 增加 值 为 原来 值 的 2 倍 . 默认 的 C 的 取 值 范 
围 为 2°: 2-5 到 215, logzC 的 步 长 为 1; 默认 的 7 的 取 值 范围 为 27: 2-1 到 25, 
logs y 的 步 长 为 1, 交叉 验证 为 5 重 . 

Libsvm 中 另外 一 个 使 用 到 的 子 程序 为 “svm-train”. 这 个 子 程序 用 来 计算 取 到 
最 优 参数 时 的 预测 准确 率 . 
8.3.5 ”结果 与 分 析 

8.3.5.1 拓扑 层 820 个 结构 域 样 本 的 分 类 结果 

1. 一 肽 频数 向 量 四 元 分 类 结果 

为 了 比较 不 同 编码 方法 对 预测 准确 率 的 影响 , 每 个 结构 域 层 中 的 结构 域 一 级 序 
列 都 由 一 肽 频数 编码 方法 、 二 肽 频数 编码 方法 和 三 肽 频数 编码 方法 三 种 编码 方法 
分 别 进行 编码 . 实验 中 首先 进行 的 是 拓扑 层 样 本 的 折 受 类 型 预测 准确 率 评 估 . 

由 于 一 肽 频数 编码 方法 编码 得 到 的 向 量 维 数 为 20, 拓扑 层 共 有 820 个 样本 , 那 
么 样本 与 维 数 的 比 为 41. 为 了 找到 最 优 的 分 类 结果 , 就 要 对 参数 C 和 7 HTH 
化 . 这 个 优化 过 程 不 是 一 趴 而 就 的 , 要 进行 耐心 地 寻找 和 分 析 . CTE “grid.py” 
程序 提供 的 默认 参数 对 C 和 y 进行 优化 , 得 到 结果 如 图 8-6 Pim. 默认 参数 为 ， 
《2C 王 2 二 5，..-，215; 29=2-15, ..., 25; -v=5”. HL “v” RABANNE. wt 
这 次 优化 过 程 , 确定 了 一 肽 频数 编码 的 向 量 集 在 这 个 向 量 集 上 目标 函数 (8.6) PA 
参数 为 C=21, KRM (8.3) 中 的 参数 都 为 Y*=23( 图 8-6). 这 时 一 肽 频数 输入 样本 集 
总 的 四 元 预测 准确 率 为 55.7317%. 


BO ee! 


—5 0 5 10 15 
lg(O) 


图 8-6 ”拓扑 层 的 820 个 样本 的 一 肽 频数 输入 样本 集 的 默认 参数 C Aly 的 优化 结果 


然而 , 从 图 8-6 中 可 以 看 出 (C, 7) 的 最 优 取 值 区 域 并 不 完全 包含 在 参数 的 默 
认 取 值 范围 之 内 . 根据 常识 , 只 有 可 能 达到 最 优 准 确 率 的 区 域 全 部 包含 在 参数 优化 


8.3 蛋白 质 结构 域 的 支持 向 量 机 预测 方法 . 127 . 


图 中 的 时 候 才 可 以 断定 所 得 到 的 预测 准确 率 是 最 优 的 , 即 准确 率 最 高 的 区 域 在 参数 
优化 图 中 已 经 形成 了 岛 形 . 由 图 8-6 可 以 确定 : 可 能 有 更 好 的 点 存在 . 
| 调整 命令 中 参数 C 和 ? 的 取 值 范围 到 可 以 覆盖 最 优 区 域 , 使 用 命令 


$python grid.py -log2c 0,2,0.1 -log2g 5,7,0.1 -v 7 文件 名 


这 个 命令 中 首先 对 参数 C 的 取 值 范围 和 步 长 进行 了 调整 , 其 中 “log2c 0,2,0.1" 表 
RBM C 的 取 值 范围 从 20 到 22, 步 长 为 202; 然后 对 Y 的 取 值 范围 和 步 长 进行 了 
调整 “log2g 5,7,0.1" 表示 参数 7 的 取 值 范围 从 25 到 27, KH 20; Av 7" 表示 
7 重 交叉 验证 试验 , 图 8-7 为 使 用 7 重 交叉 验证 试验 进行 参数 调整 后 , 规定 参数 范 
围 内 各 个 点 的 预测 准确 率 轮廓 图 


1-2-3-4 - 57 


图 8-7 拓扑 层 的 820 个 样本 的 一 肽 频数 输入 样本 集 的 7 重 交 叉 验 证 试验 优化 结果 


调整 参数 后 ， 通 过 7 重 交 义 验 证 试验 得 到 的 预测 准确 率 为 57.1951%, BR 
C=21.0, ?=262. 使 用 这 组 参数 对 样本 进行 Jackknife 试验 使 用 命令 


svm-train -c 2 -g 73.5166947198 -v 820 文件 名 


得 到 结果 见 图 8-8. 

8-8 是 一 张 屏幕 截图 .截取 了 Jackknife 试验 的 最 后 一 个 循环 和 总 的 计算 
结果 . 图 中 显示 了 六 个 “一 对 一 ”的 二 元 分 类 的 结果 . Libsvm 通过 投票 法 从 这 六 个 
三 元 分 类 中 得 到 了 总 的 四 元 分 类 准确 率 . 从 图 8-8 中 可 以 看 出 一 肽 频数 向 量 集 在 
C=210, y=2°? 时 Jackknife 预测 准确 率 为 54.7561%, 这 个 准确 率 是 真实 的 准确 率 . 
图 中 显示 总 的 支持 向 量 数 为 742, 那么 支持 向 量 与 样本 的 比值 为 0.904. 

2. 一 肽 频数 向 量 二 元 分 类 结果 

Libsvm 允许 直接 进行 多 元 分 类 , 但 是 为 了 深入 研究 各 个 折 释 类 之 间 的 关系 , 我 
们 对 属于 总 的 预测 准确 率 优 化 中 间 步 骤 的 各 个 折 县 类 之 间 的 二 元 分 类 结果 单独 进 
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行 了 计算 . 这 些 二 元 分 类 分 别 表 示 了 四 个 折 和 用 类 型 样本 序列 之 间 两 两 关系 的 情况 ， 
前 面 已 经 介绍 过 , 二 元 分 类 器 包括 “一 对 一 ”分 类 器 和 “一 对 多 ”分 类 器 两 类 . 六 
个 “一 对 一 ”分 类 器 和 四 个 “一 对 多 ”分 类 器 参数 优化 结果 以 及 预测 准确 率 详情 见 


表 8-3. 
sm sun 4 
会 话 编辑 查看 书签 AM 帮助 
ia 
optimization finished, #iter = 516 
Inu = 0.227802 


obj = -119.048136, rho = -0.636043 
SV = 200, nBSV = 25 
. 


optimization finished, #iter = 464 
u = 0.295485 

obj = -102.408751, rho = -0.660295 
ImSV = 180, nBSV = 19 

* 


optimization finished, #iter = 431 
Inu = 0.428886 
obj = -108.183213, rho = -0,548081 
ImSV = 172, nBSV = 30 

. 


optimization finished, #iter = 1260 
nu = 0.545276 
lobj = -488.267963, rho = 0.338708 
iInsv = 419, nBSsVv = 227 

> 


optimization finished, #iter = 1246 
mu = 0.459886 

obj = -347.734573, rho = 0.072359 
SV = 349, nBSV = 138 

全 


opcimizacion finished, #iter = 612 


obj = -192.752070, rho = -0.085107 

SV = 222, nBSV = 79 

otal nSv = 742 

Accuracy = O% (0/1) 

Cross Validation Accuracy = 54.7561% 

[sunesun libsvm-2.4)$ ./svm-train -c 2 -g 73.5166947198 -v 820 1-2-3-af 


图 8-8 拓扑 层 的 820 个 样本 的 一 肽 频数 输入 样本 集 在 C=2'°, y=2°? WY, 通过 Jackknife 
试验 得 到 的 预测 准确 率 


表 8-3 ”拓扑 层 820 个 一 肽 频数 样本 的 折 蚕 类 二 元 分 类 7 重 交 叉 验 证 预测 准确 率 与 
Jackknife 试验 预测 准确 率 的 比较 
分 类 器 7 重 交叉 验证 预测 准确 率 / 吧 Jackknife 试验 预测 准确 率 / 马 


a vs. 3 84.3836 82.1918 
a vs. a-3 72.9412 72.1008 
a vs. fss 84.345 82.4281 
B vs. a-B 75.9369 75.1479 
GB vs. fss 75.5556 71.5556 
a-3 vs. fss 87.6652 86.7841 
a vs. 其 他 78.6585 77.6829 
Bvs. 其 他 83.1707 82.8049 
a-B vs. 其 他 65.4878 64.1463 
fss vs. 其 他 90.2439 89.878 
平均 准确 率 79.838 84 78.472 04 


WH 8-3 中 可 以 观察 到 通过 7 重 交 叉 验 证 试验 得 到 的 准确 率 无 一 例外 地 高 于 


8.3 蛋白 质 结构 域 的 支持 向 量 机 预测 方法 . 129 ， 


通过 Jackknife 试验 得 到 的 预测 准确 率 . 后 面 的 实验 中 也 出 现 了 类 似 的 结果 , BY 7 重 
交叉 验证 试验 的 预测 准确 率 一 般 不 低 于 Jackknife 试验 的 预测 准确 率 . 出 现 这 种 现 
和 象 的 原因 在 于 , 通过 Jackknife 试验 得 到 的 预测 准确 率 是 参数 取 茶 个 值 时 真实 的 准 
确 率 , 而 通过 7 重 交 叉 验证 试验 得 到 的 准确 率 由 于 在 选择 训练 集 和 检测 集 时 具有 
一 定 的 偶然 性 , 预测 准确 率 不 免 偏 离 真 实 的 准确 率 , 有 时 仿 高 些 , 有 时 仿 低 些 . 参数 
优化 和 选择 的 过 程 是 一 个 循环 计算 过 程 , 计算 机 程序 反复 比较 取得 各 种 参数 时 预测 
准确 率 并 把 最 高 的 预测 准确 率 记 录 下 来 , 所 以 通过 7 重 交 叉 验 证 试验 得 到 的 准确 
率 总 会 高 于 通过 Jackknife 试验 得 到 的 预测 准确 率 . 

表 8-4 报告 了 二 元 分 类 器 取得 最 高 预测 准确 率 时 模型 参数 的 最 优 值 、 支 持 向 
量 数 和 支持 向 量 数 与 样本 数 的 比率 . 由 于 使 用 的 是 具有 一 定 偏差 的 7 重 交 叉 验 证 
优化 参数 , 同时 参数 取 值 又 不 是 连续 的 , 所 以 在 对 某 个 二 元 分 类 器 的 优化 过 程 中 往 
往 得 到 多 个 最 优 参数 . 为 了 计算 方便 我 们 取得 计算 机 记录 下 来 的 参数 值 , 即 第 一 个 
值 . 这 样 做 可 能 会 带 来 一 些 问题 , 比如 不 能 得 到 真正 的 最 优 值 . 之 所 以 这 么 做 首先 
因为 得 到 的 预测 准确 率 与 真实 最 优 值 相差 不 大 , 另外 也 考虑 了 计算 成 本 . 


表 8-4 ”拓扑 层 820 个 一 肽 频数 样本 二 元 分 类 最 优 参数 以 及 支持 向 量 数 与 样本 数 的 比率 


分 类 器 bus 一 支持 向 量 数 ( 约 ) 。 支持 向 量 数 与 样本 数 的 比率 
a vs. 3 23 20.5 143 0.391 
a vs. a-B 2 ia 400 0.672 
a vs. fss 2 “Fats 124 0.396 
B vs. a-B 0 25-9 345 0.683 
B vs. fss g7-5 Ze 156 0.693 
a-B vs. fss 2 Zo 8 133 0.293 
a vs. 其 他 Q7-3 rages 424 0.517 
Bvs. 其 他 2 gs 328 0.4 
a-B vs. 其 他 Q7-0 2-1-0 649 0.791 
fss vs. 其 他 2 ate 191 0.233 


另外 需要 说 明 的 是 Libsvm 使 用 “一 对 一 ”的 投票 法 以 二 元 分 类 为 基础 进行 多 
元 分 类 . 在 8.3.5.1 节 的 第 一 部 分 中 给 出 的 四 元 分 类 与 8.3.5.1 节 的 第 二 部 分 中 的 二 
元 分 类 是 单独 进行 的 .8.3.5.1 节 的 第 一 部 分 中 构成 四 元 分 类 的 各 个 二 元 分 类 器 把 
四 种 折 和 登 类 型 的 样本 放 在 一 起 作为 一 个 整体 进行 优化 , 共用 一 个 参数 . 而 8.3.5.1 节 
的 第 二 部 分 中 的 二 元 分 类 器 的 参数 是 单独 优化 的 , 它们 根据 各 个 二 元 样本 集 的 性 质 
单独 进行 优化 , 分 别 使 用 各 自 的 参数 . 

3. 二 肽 频数 向 量 四 元 分 类 结果 

二 肽 频数 编码 方法 编码 得 到 的 向 量 维 数 为 400, 拓扑 层 共 有 820 个 样本 , 样本 
与 维 数 的 比 为 2.05. 这 个 比值 大 大 小 于 一 肽 频数 编码 方法 编码 的 向 量 的 样本 与 维 
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数 的 比值 . 

经 过 第 一 轮 优 化 之 后 ,确定 了 在 这 个 向 量 集 上 目标 函数 (8.6) 式 中 的 参数 为 
C=23, 核 函 数 (8.5) 式 中 的 参数 都 为 7?=23. 这 时 二 肽 频数 输入 样本 集 总 的 四 元 预 
测 准确 率 为 52.2589%. 调整 命令 中 参数 C 和 y 的 取 值 范围 到 可 以 覆盖 最 优 区 域 ， 
使 用 命令 

$python grid.py -log2c 1,3,0.1 -log2g 3,5,0.1 -v7 文件 名 
参数 C 的 取 值 范围 从 21 到 23, 步 长 为 201, 7 的 取 值 范围 从 23 到 25, 步 长 为 20.1， 
使 用 了 7 重 交 叉 验 证 试验 . 图 8-9 为 使 用 7 重 交 叉 验 证 试验 进行 参数 调整 后 , 规定 
参数 范围 内 各 个 点 的 预测 准确 率 轮 廊 图 . 


2 
lg(C) 
图 8-9 拓扑 层 的 820 个 样本 的 二 肽 频数 输入 样本 集 的 参数 C Ay 经 过 微调 后 的 7 BR 
证 试验 优化 结果 


通过 7 重 交 叉 验 证 试验 进行 参数 优化 得 到 (C = 220,7 = 245) 和 (C = 211, y= 
244) 两 个 点 可 以 得 到 的 最 优 预测 准确 率 都 为 56.7766%.， Jackknife 试验 证 明 当 
C=2?9, y=245 时 ， 四 元 预测 准确 率 达到 最 高 54.7009%， 图 8-10 显示 了 最 后 一 
个 循环 的 预测 结果 . 图 中 最 后 一 行 显示 了 根据 二 元 分 类 的 投票 结果 得 到 最 后 一 个 样 
本 的 预测 结果 . 所 进行 的 分 类 中 一 共 得 到 了 约 767 个 支持 向 量 , 支持 向 量 占 总 样本 
数 的 93.5%. 

4. 二 肽 频数 向 量 二 元 分 类 结果 - 

二 肽 频数 向 量 二 元 分 类 器 参数 优化 结果 以 及 预测 准确 率 详情 见 表 8-5. 一 肽 频 
数 向 量 的 四 元 预测 准确 率 与 二 肽 频数 向 量 的 四 元 预测 准确 率 之 间 的 差别 不 大 , 相差 
2 0.5%, 一 肽 频数 向 量 的 预测 准确 率 略 高 . 10 个 二 元 分 类 器 的 平均 Jackknife 试 
验 预测 准确 率 也 相差 不 大 , 二 肽 频数 向 量 的 预测 准确 率 略 高 些 , 约 为 1%. 一 肽 频数 
向 量 预测 结果 中 的 支持 向 量 与 样本 数量 的 比率 为 0.5069, 二 肽 频数 向 量 预测 结果 中 


— 
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的 支持 向 量 与 样本 数量 的 比率 为 0.6577.， 显然 一 肽 频数 向 量 预测 结果 中 的 支持 向 
量 与 样本 数量 的 比率 比 二 肽 频数 向 量 预测 结果 中 的 支持 向 量 与 样本 数量 的 比率 高 
得 多 , 高 了 约 为 15%. 表 8-6 报告 了 二 元 分 类 器 取得 最 高 预测 准确 率 时 模型 参数 的 
最 优 值 、 支 持 向 量 数 和 支持 向 量 数 与 样本 数 的 比率 . 


ae 查看 书签 设置 0h Pies 


s = -426.087011, rho = 1.163479 
下 SV = 341，nBSV = 193 


. 
Joptimization finished, #iter = 652 
| = 0.655001 
obj = -607.539975, rho = 1.949748 
上 464, mBSsV = 314 
| 
| 
i 
it 


obi = -150.168882, rho = 3.528258 
nsv = 181, nBsv = 59 


flopeinizacion finished, #iter = 409 
pou = 0.538501 
-492625, rho = -0.809551 


® 

optimization finished, #iter = 324 
fou = 0.513047 

obj = -139.896246, rho = 2.621293 
|nsv = 165, nBsv = 56 


obj = ate ey rho = 3.266297 
InsV = 175, nmBSV = 49 


across validation Accuracy = 54.7009% | 
a(sun@sun libsvm-2.4)§ ./svm-train -c 2 -g 22.627416998 -v 820 crallff 本 | 


8-10 拓扑 层 的 820 个 样本 的 二 肽 频数 输入 样本 集 在 C=2?°, y=2*° 时 , 通过 Jackknife 
试验 得 到 的 预测 准确 率 


表 8-5 ”拓扑 层 820 个 二 肽 频数 样本 的 折 释 类 二 元 分 类 7 重 交叉 验证 预测 准确 率 与 
Jackknife 试验 预测 准确 率 的 比较 


分 类 器 7 重 交 叉 验 证 预测 准确 率 /9 Jackknife 试验 预测 准确 率 / 怠 
avs. B 84.9727 83.3333 
avs. a-3 71.8855 71.2121 
avs. fss 86.2179 85.5769 
Bvs. a-B 73.3728 71.7949 
Bvs. fss 78.7517 77.2321 
a-Bvs. fss 89.6476 88.7665 
avs. 其 他 77.7778 77.4115 
Bvs. 其 他 83.1502 83.1502 
a-Bvs. 其 他 66.2169 64.878 
fss vs. 其 他 90.4672 90.1099 


平均 准确 率 80.246 03 79.346 54 
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表 8-6 ”拓扑 层 820 个 二 肽 频数 样本 二 元 分 类 最 优 参数 以 及 支持 向 量 数 与 样本 数 的 比率 


& 

分 类 器 = BRE 支持 向 量 数 ( 约 ) 支持 向 量 数 与 样本 数 的 比率 

a4 

avs. 3 229:2 Denes 247 0.675 
avs. a-B po.2 25 475 0.798 

avs. fss 20.2 25.5 192 0.613 
Bvs. a-B 2p aes 325 0.641 

Gvs. fss 20:5 28:3 179 0.796 
a-Gvs. fss 21.3 8 203 0.447 
avs. 其 他 20.6 26.6 669 0.816 
Bvs. 其 他 25 2 三 4 362 0.441 
a-Bvs. 其 他 20 97.0 801 0.977 
fss vs. 其 他 29.3 26.1 306 0.373 


5. 三 肽 频数 向 量 四 元 分 类 结果 
通过 三 肽 频数 编码 方法 得 到 的 向 量 的 维 数 为 203=8000 维 . 这 样 , 每 个 样本 的 
大 小 就 是 通过 二 肽 频数 编码 方法 得 到 的 向 量 的 20 倍 , 计算 成 本 随 着 样本 大 小 的 增 
加 而 增加 . 这 时 向 量 数 量 与 向 量 维 数 的 比值 约 为 0.1, 这 个 比值 说 明 样 本 数量 很 小 . 
经 过 首次 优化 确定 了 参数 C=25, y=2? 时 得 到 的 预测 结果 最 优 , 这 时 三 肽 频数 输入 
样本 集 总 的 四 元 预测 准确 率 为 52.0147 儿 . 修改 参数 进行 再 次 优化 , 使 用 命令 为 
$python grid.py -log2c 0.5,4,0.1 -log2g 5.5,6.5,0.1 -v 7 文件 名 


3d-vector 


lg(gamma) 


图 8-11 拓扑 层 的 820 个 样本 的 三 肽 频数 输入 样本 集 的 参数 C 和 7 经 过 微调 后 的 7 BAN 
验证 试验 优化 结果 


得 到 的 参数 优化 图 见 图 8-11. 经 过 参数 调整 后 得 到 的 预测 准确 率 有 所 提高 ， 
达到 了 54.0904%. 能够 达到 这 个 预测 准确 率 的 参数 为 C=226, g=2°° 和 C=213， 
0=25.8， 当 C=2?, g=259 时 Jackknife 试验 的 预测 准确 率 为 53.3578%, FILA 
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8-12. 支持 向 量 约 8174, 占 总 向 量 数 的 99.6%. 支持 向 量 数 与 总 样本 数 的 比值 极 
高 , 几乎 每 个 样本 都 成 了 支持 向 量 . 显而易见 这 么 高 的 支持 向 量 与 总 样本 数 是 不 合 
理 的 , 再 考虑 到 样本 数量 与 向 量 维 数 的 比值 , 增加 样本 数量 会 提高 预测 准确 率 . 


iv] un: As in-2.4 — Shell -= K 
会 话 MH 查看 书签 设置 帮助 


2 oe 
nu = 0.208064 
j = -321.415235, 
498, mnBsv = 4 

optimization finished, #iter 1606 
imu = 0.263112 

bj = - , rho = 0.066857 
593, nBsv = 3 


ptimization finished, #iter = 385 
Inu = 0.063215 
j = -66.8611614 


图 8-12 ”拓扑 层 的 820 个 样本 的 三 肽 频数 输入 样本 集 的 通过 Jackknife 试验 得 到 的 预测 准确 率 


这 个 预测 结果 与 二 肽 频数 编码 方法 得 到 的 样本 的 预测 结果 相 比较 , 预测 准确 
率 有 所 降低 . 通过 Jackknife 试验 得 到 的 预测 准确 率 降 低 了 54.7009%—53.3578%= 
1.3431%, 而 支持 向 量 数 和 样本 数 的 比率 有 所 升 高 , 升 高 了 99.6%—-93.5%=6.1%. 

6. 三 肽 频数 向 量 二 元 分 类 结果 

拓扑 层 820 个 三 肽 频数 编码 方法 编码 的 样本 的 二 元 分 类 器 的 7 重 交 叉 验 证 预 
测 准确 率 和 Jackknife 试验 预测 准确 率 显 示 在 表 8-7 中 . 最 优 参数 、 支 持 向 量 数 以 
及 支持 向 量 与 样本 数 的 比率 的 详细 信息 显示 在 表 8-8 中 . 

观察 表 8-4 到 表 8-8 四 个 表 , 可 以 看 出 支持 向 量 数 与 样本 数 的 比率 和 Jackknife 
试验 预测 准确 率 之 间 存 在 反 向 变化 趋势 . 支持 向 量 数 与 样本 数 比率 高 的 二 元 分 类 
准确 率 相 应 较 低 , 反之 亦 然 . 在 一 肽 频数 向 量 折 县 类 分 类 中 , 支持 向 量 数 与 样本 数 
的 比率 最 高 的 三 个 二 元 分 类 器 为 a-6 vs. 其 他 (0.791). 6 vs. fss(0.693) 以 及 B vs. 
a-3(0.683). 与 它们 相对 应 的 Jackknife 试验 分 类 准确 率 为 64.1463%、71.5556 双 和 
75.1479%, 这 三 个 预测 准确 率 在 几 个 二 元 分 类 器 中 的 准确 率 分 别 在 倒数 第 一 、 第 
二 和 第 四 位 . 支持 向 量 数 与 样本 数 的 比率 最 低 的 三 个 二 元 分 类 器 为 fss vs， 其 他 
(0.233). a-@ vs. fss(0.293) 和 a vs. fss(0.396). 与 之 相对 应 的 Jackknife 试验 分 类 准 
确 率 为 89.878% 、86.7841%% 和 82.4281%, 这 三 个 预测 准确 率 在 几 个 二 元 分 类 器 中 的 
准确 率 分 别 在 第 一 、 第 二 和 第 四 位 . 在 二 肽 频数 向 量 分 类 和 三 肽 频数 向 量 分 类 中 也 
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出 现 了 类 似 的 情况 . 


表 8-7 ”拓扑 层 820 个 三 肽 频数 样本 的 折 丢 类 二 元 分 类 7 重 交 叉 验证 预测 准确 率 与 
Jackknife 试验 预测 准确 率 的 比较 


分 类 器 7 重 交 叉 验 证 预测 准确 率 / 史 Jackknife 试验 预测 准确 率 / 邑 
a vs. 3 80.5479 80.274 
a vs. a-B 68.6869 68.1818 
a vs. fss 84.6154 83.9744 
B vs. a-3 72.9249 72.332 
B vs. fss 80.3571 79.9107 
a-B vs. fss 89.8455 89.404 
a vs. 其 他 74.4811 74.359 
Bvs. 其 他 83.0281 83.0281 
a-B vs. 其 他 63.7363 63.7363 
fss vs. 其 他 90.5983 90.3541 
平均 准确 率 78.882 15 78.555 44 


表 8-8 ”拓扑 层 820 个 三 肽 频数 样本 的 最 优 参数 、 支 持 向 量 数 以 及 支持 向 量 数 与 样本 数 的 比率 


参 
分 类 器 人 数 支持 向 量 数 ( 约 ) 支持 向 量 数 与 样本 数 的 比率 
Y 
a vs: 3 210.5 22.5 338 0.923 
a vs. a-B 26-5 90.2 576 0.968 
a vs. fss 25 25 215 0.709 
B vs. a-B 23-5 Pea 481 0.949 
B vs. fss Zee are 180 0.8 
a-B vs. fss 25.0 26.0 225 0.495 
avs. 其 他 23 25 774 0.944 
B vs. 其 他 25 2-4 588 (eT17 
a-B vs. 其 他 2* 7.0 786 0.959 
fss vs. 其 他 23 23 375 0.457 


7. 拓扑 层 不 同 维 数 向 量 预测 结果 的 比较 

相同 样本 集 的 不 同 维 数 向 量 的 预测 结果 比较 的 目的 在 于 考察 不 同 编码 方法 对 
知识 的 挖掘 能 力 . 从 上 面 的 预测 的 结果 来 看 , 一 肽 频数 向 量 的 四 元 预测 准确 率 和 二 
元 预测 准确 率 与 二 肽 频数 向 量 的 预测 结果 大 体 相 当 , 而 二 肽 频数 向 量 的 无 论 是 四 元 
预测 准确 率 还 是 二 元 预测 准确 率 要 高 于 三 肽 频数 向 量 相 对 应 的 预测 准确 率 . 

图 8-13 显示 了 四 元 分 类 的 Jackknife 试验 预测 准确 率 , 可 以 看 出 输入 向 量 的 维 
数 越 高 预测 准确 率 越 低 ， 出 现 这 种 情况 的 原因 在 于 样本 数 与 输入 向 量 的 维 数 的 比 
是 影响 到 预测 准确 率 的 一 个 重要 原因 . 因此 得 出 结论 : 当 样 本 数量 较 小 时 , 尽量 使 
用 维 数 低 的 向 量 . 


| 
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拓扑 层 样本 四 元 预测 准确 率 比 较 


54.7561 54 7009 


一 肽 频数 二 肽 频数 三 肽 频数 


A813 ”拓扑 层 的 代表 个 样本 的 一 肽 、 二 肽 、 三 肽 频数 向 量 预 测 准确 率 比 较 图 


下 一 阶段 的 实验 中 取 了 CATH 数据 库 中 的 同 源 超 族 层 (homology superfamily 
level) 的 结构 域 作 为 实验 样本 , 其 总 数 为 1572 个 . 


8.3.5.2 ” 同 源 超 族 层 1572 个 结构 域 的 预测 结果 


1. 一 肽 频数 向 量 四 元 分 类 结果 

在 CATH 数据 库 的 2.6.0 版 本 中 的 同 源 超 族 层 有 1572 MEA, 这 些 样本 是 该 
层 的 所 有 代表 样本 . 2.6.0 与 2.5.1 的 相同 层 的 样本 不 尽 相 同 . 同 源 超 族 层 的 结构 域 
比 拓扑 层 的 结构 域 的 同 源 性 要 高 些 (本 章 8.2.2 节 ). 对 于 同 源 超 族 的 1572 个 样本 
的 处 理 在 程序 上 跟 对 于 拓扑 层 820 个 样本 的 处 理 一 样 . 首先 把 同 源 超 族 的 样本 通 
过 多 肽 频数 编码 方法 晓 入 到 输入 空间 , 然后 再 使 用 Libsvm 软件 包 进行 结构 类 的 预 
测 . 

首先 进行 四 元 预测 . 使 用 命令 

$python grid.py -log2c 6,8,0.1 —log2g 0,2,0.1 -v 7 文件 名 

得 到 的 参数 C 与 7 的 优化 图 (图 8-14). 使 用 命令 


$svm-train —c 128 -g 1.74110112659 -v 7 文件 名 


得 到 C=27, 7=208 时 的 Jackknife 试验 预测 准确 率 的 屏幕 截图 (图 8-15). 

同 源 超 族 层 的 代表 样本 比 拓 扑 层 的 代表 样本 的 数量 增加 了 接近 一 倍 , 同 源 性 
也 有 所 增加 . 从 四 元 预测 准确 率 来 看 一 肽 频数 向 量 的 预测 准确 率 大 幅 增加 , 增加 了 
61.9593%—54.7561%=7.2032%. 总 的 支持 向 量 数 为 1241, SABA 78.9%. 
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1-2-3-4 . ee 


6 6.5 7 75 8 


图 8-14 PARR AY 1572 个 样本 的 一 肽 频数 输入 样本 集 的 参数 C Aly 经 过 微调 后 的 7 重 
交叉 验证 试验 优化 结果 


Af Lonsolrt 
会 话 
ae ue) 
optimization finished, #iter = 16975 


Inu = 0.522475 
obj = -73259.815727, rho = 28.343969 


optimization finished, #iter = 7795 
Inu = 0.526853 
obj = -65674.330311, rho = 13.631135 

sv = 562, nBsv = 506 

. 
optimization finished, #iter = 5765 
Inu = 0.175299 
obj = -15143.907091, rho = 29.642018 
ImSV = 175, nBSv = 109 
. 

optimization finished, #iter = 4253 
Inu = 0.324159 
obj = -29577.585079, rho = -13.671607 
nsv = 276, nBSV = 233 


obj = -16287.951042, rho = 14.760642 
nsv = 175, nBsv = 116 
* 

loptimization finished, #iter = 3241 
Inu = 0.295736 
obj = -12789.651533, rho = 26.007946 
insV = 140, nBsv = 95 
Total msv = 1241 

ccuracy = 100% (1/1) 

Cross Validation Accuracy = 61.9593% a 
[sung@sun libsvm-2.4)¢ ./svm-train -c 128 -g 1.74110112655 -v 1572 1-2-3-4f ff Pe 


图 8-15 AURA AY 1572 个 样本 的 一 肽 频数 输入 样本 集 在 C=27°, y=2°°° 时, 通过 
Jackknife 试验 得 到 的 预测 准确 率 


2. 一 肽 频数 向 量 二 元 分 类 结果 

同 源 超 族 的 1572 个 一 肽 频数 编码 方法 编码 的 样本 的 二 元 分 类 器 的 7 BAS 
验证 预测 准确 率 和 Jackknife 试验 预测 准确 率 显示 在 表 8-9 中 . EBS. SCA 
量 数 以 及 支持 向 量 与 样本 数 的 比率 的 详细 信息 显示 在 表 8-10 中 . 


8.3 和 蛋白质 结构 域 的 支持 向 量 机 预测 方法 -137- 


% 8-9 RMR 1572 S—-KMAHAWDABROITPA 7 重 交 叉 验 证 预测 准确 率 与 
Jackknife 试验 预测 准确 率 的 比较 


分 类 器 7 重 交叉 验证 预测 准确 率 /% Jackknife 试验 预测 准确 率 /9 
a vs. B 86.4691 84.7938 
avs. a-B 77.199 77.3698 
a vs. fss 87.3874 86.1261 
B vs. a-B 75.9095 75.4149 
GB vs. fss 86.5337 86.0349 
a-G vs. fss 92.0854 92.0854 
a vs. 其 他 80.1527 80.2799 
B vs. 其 他 83.7786 83.3969 
a-3 vs. 其 他 68.9567 67.6209 
fss vs. 其 他 94.6565 94.402 
平均 准确 率 83.312 86 82.752 46 


表 8-10 PMR 1572 个 一 肽 频数 样本 二 元 分 类 最 优 参 数 以 及 支持 向 量 数 与 
样本 数 的 比率 


参 

分 类 器 BREE 支持 向 量 数 ( 约 ) 。 支持 向 量 数 与 样本 数 的 比率 
avs. B 27-6 20.8 267 0.344 
a vs. a-B 22.5 23-2 400 0.568 
a vs. fss 22.1 23.8 124 0.326 
B vs. a-B 20.3 23-8 345 0.570 
B vs. fss 26-6 90.3 157 0.392 
a-B vs. fss 23-0 23.0 177 0.222 
avs. 其 他 23-1 22.4 424 0.480 
B vs. 其 他 22.0 24.7 328 0.426 
a-B vs. 其 他 22.9 22.3 649 0.764 
fss vs. 其 他 24.0 23.0 255 0.162 


3. 二 肽 频数 向 量 四 元 分 类 结果 

二 肽 频数 编码 方法 编码 得 到 的 向 量 维 数 为 400, 同 源 超 族 层 共 有 1572 EEA, 
那么 样本 与 维 数 的 比 为 3.93. 这 个 比值 仍然 大 大 小 于 一 肽 频数 编码 方法 编码 的 向 
量 的 样本 与 维 数 的 比值 ( 表 8-11). 

经 过 第 几 轮 优化 之 后 ,确定 了 在 这 个 向 量 集 上 目标 函数 (8.6) 式 中 的 参数 为 
C=2-°!, BRM (8.5) 式 中 的 参数 都 为 Y=25.0. 这 时 二 肽 频数 输入 样本 集 总 的 四 
元 预测 准确 率 为 59.9237%. 调整 命令 中 参数 C 和 y 的 取 值 范围 到 可 以 覆盖 最 优 区 
域 , 使 用 命令 


$python grid.py —log2c -0.3,0.2,0.05 -log2g -4,6,0.05 -~v 7 文件 名 
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表 8-11 RMR 1572 个 二 肽 频数 样本 的 折 到 类 二 元 分 类 7 重 交 叉 验 证 预测 准确 率 与 
Jackknife 试验 预测 准确 率 的 比较 


分 类 器 7 重 交 叉 验 证 预测 准确 率 / 兄 Jackknife 试验 预测 准确 率 / 吸 
a vs. 3 85.9536 85.8247 
a vs. a-3 74.5517 74.7225 
a vs. fss 86.3063 85.9459 
B vs. a-B 76.0079 75.5162 
GB vs. fss 85.7855 85.2868 
a-3 vs. fss 92.8392 91.9598 
a vs. 其 他 78.3079 77.6718 
B vs. 其 他 84.0967 83.5242 
a-B vs. 其 他 65.9033 65.7761 
fss vs. 其 他 94.5929 94.3384 
平均 准确 率 82.4345 82.056 64 


参数 C 的 取 值 范围 从 2: 到 23, 步 长 为 2"1, 7 的 取 值 范围 从 23 到 2°, 步 长 为 221， 


使 用 了 7 重 交 叉 验 证 试验 . 图 8-16 为 使 用 7 重 交 叉 验 证 试验 进行 参数 调整 后 , 规 ， 


定 参数 范围 内 各 个 点 的 预测 准确 率 轮廓 图 


V-1-2-3-4 


GD AR 
aonsn 


flee — 4 
0.3—0.25—0.2—0.15—0.1—0.050 0.05 0.1 0.15 0.2 
Ig(C) 


图 8-16 [ARAB AS 1572 个 样本 的 二 肽 频数 输入 样本 集 的 参数 C 和 7 经 过 微调 后 的 7 重 
交叉 验证 试验 优化 结果 


通过 7 重 交 叉 验 证 试验 进行 参数 优化 得 到 在 点 (C=2-0.05, 7=24 上 5) 的 最 优 预 
测 准确 率 为 60.0509%. 为 了 确定 最 优 准 确 率 分 别 对 上 面 三 个 点 进行 了 Jackknife 试 
验 , 使 用 命令 
svm-train —c 0.965936328925 -g 30.9099625256 -v 1572 文件 名 


实验 证 明 当 C=2-0.05, y= 24-95 时 四 元 预测 准确 率 达 到 最 高 , 为 59.7328%. 屏 
幕 截图 见 图 8-17. 图 8-17 显示 了 最 后 一 个 循环 的 预测 结果 . 所 进行 的 分 类 中 一 共 


8.3 蛋白 质 结构 域 的 支持 向 量 机 预测 方法 - 139 . 


得 到 了 约 1421 个 支持 向 量 , 支持 向 量 占 总 样本 数 的 90.3%. 与 拓扑 层 的 820 个 样 
本 由 二 肽 频数 编码 方法 得 到 的 同 量 预测 结果 相 比 较 , 支持 癌 量 占 总 样本 数 的 比率 下 
降 了 94.0% -90.3%=3.7%, 预测 准确 率 上 升 了 59.7328%—54.7009%=5.0318%. 


timizacion finishe: 
mu = 0.629509 
obj = -578.090791, rho = 1.98911 
msv = 826, mBSsv = 647 


= -473.954474, rho 0.553862 
nSV = 674, nBsv = 528 


timization finishe 
imu = 0.208216 
j = 


msv = 225, mBsv = 108 
. 
optimization finished, #iter 


obj = -282.159668, rho 
V = 461, masv = 332 


8-17 ” 同 源 超 族 层 的 1572 个 样本 的 二 肽 频数 输入 样本 集 在 C=2-0.05, y= 249 时 , 通过 
Jackknife 试验 得 到 的 预测 准确 率 


4. 二 肽 频数 样本 二 元 分 类 结果 

同 源 超 族 1572 个 样本 由 二 肽 频数 编码 方法 编码 的 向 量 集 的 二 元 分 类 器 的 7 重 
交叉 验证 试验 分 类 准确 率 与 Jackknife 试验 分 类 准确 率 显 示 在 表 8-12 中 . 二 元 分 
类 器 的 优化 相应 参数 、 支 持 向 量 数 以 及 支持 向 量 数 与 样本 数 的 比率 的 详细 信息 显 
示 在 表 8-13 中 . 

CATH 数据 库 中 同 源 超 族 层 的 1572 个 代表 结构 域 所 构成 的 样本 比 拓扑 层 820 
个 代表 所 构成 的 样本 数量 扩大 了 将 近 一 倍 . 从 预测 结果 来 看 预测 准确 率 有 所 提高 ， 
支持 向 量 与 样本 的 比率 有 所 下 降 . 

5. 三 肽 频数 样本 四 元 分 类 结果 

同 源 超 族 的 1572 个 样本 和 藤 入 到 输入 空间 后 得 到 的 向 量 文件 非常 大 , 所 有 文件 
容量 的 和 超过 了 2.3G. 大 数据 量 的 运算 十 分 困难 , 仅仅 对 于 三 肽 频数 输入 样本 集 的 
四 元 分 类 的 参数 优化 在 使 用 了 4 个 CPU 的 SGI 图 形 工作 站 上 就 花 去 了 一 个 多 月 
的 时 间 . 

经 过 几 次 优化 确定 了 参数 C=23, 7=23 时 得 到 的 预测 结果 最 优 , 这 时 三 肽 频数 
输入 样本 集 总 的 四 元 预测 准确 率 为 56.6158%%. 修改 参数 进行 再 次 优化 , 使 用 命令 为 
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表 8-12 MMR 1572 个 二 肽 频数 样本 的 最 优 参 数 、 支 持 向 量 数 以 及 支持 向 量 数 和 
样本 数 的 比率 


分 类 器 四 i as - 支持 向 量 数 ( 约 ) 支持 向 量 与 样本 的 比率 
avs. B ees 26-2 528 0.680 
a vs. a-B 多 8 Piha 829 0.708 
a vs. fss 2 yn 223 0.402 
GB vs. a-B 21.3 28:0 725 0.713 
B vs. fss 90.5 26.3 247 0.616 
oa-B vs. fss ge 28 276 0.359 
a vs. 其 他 7 Das 840 0.534 
B vs. 其 他 2 26:8 1096 0.697 
a-3 vs. 其 他 a 203 1512 0.962 
fss vs. 其 他 2 28 369 0.235 


表 8-13 MMMM 1572 SEMMAAHAHMBR-THA 7 重 交 叉 验 证 预测 准确 率 与 
Jackknife 试验 预测 准确 率 的 比较 


分 类 器 7 重 交 叉 验 证 预测 准确 率 / 允 Jackknife 试验 预测 准确 率 / 宛 
avs. B 85.4194 86.1935 
avs. a-B 73.1045 72.7583 
a vs. fss 85.5597 85.1986 
B vs. a-B 74.7296 73.2547 
GB vs. fss 85.5362 84.5387 
a-B vs. fss 92.5879 92.5879 
a vs. 其 他 76.145 75.1908 
B vs. 其 他 82.2519 81.8702 
a-3 vs. 其 他 — 64.9491 64.5647 
fss vs. 其 他 94.5293 94.4656 
平均 准确 率 81.481 26 81.0623 


$python grid.py -log2c 1,3,0.1 -log2g 4,6,0.1 -v 7 文件 名 


经 过 参数 调整 后 得 到 的 预测 准确 率 有 所 提高 ， 达 到 了 57.1883%. ILA 8-18. 
能 够 达到 这 个 预测 准确 率 的 参数 为 C=229, g=253, JENIN Jackknife 试验 的 预 
测 准确 率 为 56.4885%, 屏幕 截图 见 图 8-19， 支 持 向 量 数 约 1489 +, 占 总 向 量 数 
的 94.7%， 支 持 向 量 数 与 总 样本 数 的 比值 仍然 很 高 .这 个 预测 结果 与 二 肽 频数 编 
码 方法 编码 的 样本 的 预测 结果 相 比 通过 Jackknife 试验 得 到 的 预测 准确 率 降 低 了 
59.7328%—57.1884%=2.5444%. 

6. 三 肽 频数 样本 二 元 分 类 结果 

同 源 超 族 1572 个 样本 的 三 肽 频数 编码 方法 编码 的 向 量 的 二 元 分 类 器 的 7 BEAR 


8.3 和 蛋白质 结构 域 的 支持 向 量 机 预测 方法 -141- 


又 验证 试验 分 类 准确 率 与 Jackknife 试验 分 类 准确 率 比 较 的 详细 信息 显示 在 表 8-13 
中 . 最 优 参数 、 支 持 向 量 数 以 及 支持 向 量 数 与 样本 数 的 比率 显示 在 表 8-14 中 ， 


4 v-1-2-3-4 


Ig(C) 
8-18 同 源 超 族 层 的 1572 个 样本 的 三 肽 频数 输入 样本 集 的 参数 C Aly 经 过 微调 后 的 7 = 
交叉 验证 试验 优化 结果 


ai shat milk © pleas! Eee ee 


= 1051, “nBEV = 


二 和 finished, #iter = 2212 
Inu = 0.395074 

= -814.1258688, rho = 0.460916 

= 890, nBSV = 64 


/ 
: 
| 


j = -126.097306, rho = 1.688230 
» nBSV = 0 


ae 二 
opcimizacion finished, #iter = 1889 
1 = 0.34788 


ni 7 
obj = -525.569748, rho = -0.396516 
nsv = 688, nB 


. ter = 743 


= 7153. LEE 人 rho = 0.651201 
| = 373, nBsv = 0 


imization finished, #iter = 514 
u = 0.154550 
= -116. aan on = 1.502543 
D = 269, nBsv 
al nsv = 148 9 
osemen = 60.7595% ag 
Cross Validation Accuracy = 56.4885% | 
{sunesun libsvm-2. ae. ee train -c 4 -g 39.396621227037 -v 20 v-1-2-3-4§] 


图 8-19 [ARR 1572 个 样本 的 三 肽 频数 输入 样本 集 在 C=2?°, y=2°°3 时 , 通过 
Jackknife 试验 得 到 的 预测 准确 率 


7. 同 源 超 族 层 不 同 维 数 向 量 预测 结果 的 比较 
上 面 几 节 给 出 了 同 源 超 族 层 1572 个 样本 依次 依据 一 肽 频数 编码 方法 、 二 肽 频 
数 编码 方法 和 三 肽 频数 编码 方法 把 氨基 酸 残 基 序列 映射 到 不 同 向 量 空间 后 的 预测 
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准确 率 评 佑 , 见 图 8-20. 
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表 8-14 同 源 超 族 1572 个 三 肽 频数 样本 的 优化 参数 、 支 持 向 量 数 以 及 支持 向 量 数 与 


分 类 器 


avs. B 
a vs. a-3 
a vs. fss 
GB vs. a-B 
GB vs. fss 
a-G vs. fss 
a vs. 其 他 
B vs. 其 他 
a-B vs. 其 他 
fss vs. 其 他 


最 优 参数 

C 
24.1 92.1 
91.5 95.5 
95.2 90.6 
92.7 94.8 
91.5 94.8 
92.0 96.4 
94.4 93.4 
97.0 95.0 
90 97.0 
92.9 92.7 


样本 数 的 比率 
支持 向 量 数 ( 约 ) 


659 

1105 
413 

910 

277 

275 

1232 
1089 
1457 


支持 向 量 与 样本 的 比率 


0.849 
0.944 
0.744 
0.850 
0.691 
0.345 
0.784 
0.693 
0.927 
0.348 


图 8-20” 同 源 超 族 层 的 代表 个 样本 的 一 肽 、 二 肽 、 三 肽 频数 向 量 预 测 准 确 率 比 较 图 


图 8-20 显示 出 的 准确 率 的 趋势 与 图 8-13 所 显示 出 的 趋势 是 一 样 的 ， 输 入 向 
量 的 维 数 越 高 预测 准确 率 越 低 . 与 图 8-13 不 同 的 是 , 一 肽 频数 样本 的 预测 准确 率 
与 二 肽 和 三 肽 频数 向 量 的 预测 准确 率 的 差距 拉 大 了 , 它们 的 差距 达到 了 1.8635%41 


5.4678%. 


下 一 阶段 的 实验 中 取 了 CATH 数据 库 中 的 序列 家 族 层 (sequence family level) 


层 的 结构 域 作为 实验 样本 , 其 总 数 为 6957 个 . 


| 
| 
| 
: 
: 


8.3 蛋白 质 结 构 域 的 支持 向 量 机 预测 方法 - 143 . 


8.3.5.3 ”序列 家 族 层 6957 个 结构 域 的 预测 结果 


1. 一 肽 频数 向 量 四 元 分 类 结果 

在 CATH 数据 库 的 2.6.0 版 本 中 的 序列 家 族 层 共有 6003 MEA, 其 中 a 类 包 
S&T 1402 MEA, 6 类 包含 了 1443 MEA, a-6 类 包含 3014 MEA, few secondary 
structures 类 包含 了 144 个 样本 ， 可 以 看 出 few secondary structures 类 别 的 样本 
数量 过 少 , 不 到 a-6 类 样本 数量 的 1/20. 对 于 这 种 不 平衡 数据 集 直接 进行 分 类 是 
不 合理 的 ,因为 在 a-8 类 对 few secondary structures 类 的 二 元 分 类 中 即便 把 few 
secondary structures 类 的 所 有 样本 全 都 错 划 归 a-8 类 分 类 准确 率 仍 然 超过 95%, 这 
种 结论 没有 意义 . 在 样本 数 既 定 的 情况 下 , 处 理 这 种 不 平衡 数据 集 的 方法 一 般 有 两 
类 : D 在 大 样本 集中 随机 抽取 一 定 的 样本 , 数量 约 与 小 样本 集 的 样本 数量 相同 , 组 
成 新 的 数据 集 ; Q 重复 使 用 小 样本 集中 的 样本 . 我 们 在 折 登 类 型 预测 中 处 理 非 平 
衡 数 据 集 的 方法 与 前 面 提 到 的 方法 有 所 不 同 . 由 于 CATH 数据 库 的 结构 域 数 量 大 
大 多 于 我 们 使 用 的 结构 域 数 量 , 因此 在 选择 样本 时 还 有 余地 . 因此 实验 中 选择 的 全 
部 的 few secondary structure 类 的 结构 域 共 1098 个 作为 few secondary structure 类 
的 样本 . 那么 该 类 与 a KR. BRA 0-8 类 的 所 用 样本 构成 了 一 个 6957 个 样本 的 样 
本 集 , 这 样 不 平衡 样本 集 的 问题 就 解决 了 . 这 6947 个 样本 不 在 是 纯粹 的 序列 家 族 
的 代表 结构 域 , 但 是 为 了 方便 起 见 还 是 称 作 序列 家 族 的 样本 . 

对 于 序列 家 族 的 一 肽 频数 样本 进行 了 几 轮 优化 以 后 得 到 大 致 的 最 优 参数 取 值 
WH, 进行 最 终 的 参数 优化 , 使 用 命令 


$python grid.py -log2c 6,8,0.1 -log2g 0,2,0.1 -v 7 文件 名 
得 到 的 参数 C 与 7 的 优化 图 (A 8-21). 


lg(O) 


图 8-21 序列 家 族 层 的 6957 个 样本 的 一 肽 频数 输入 样本 集 的 参数 C 和 y 经 过 微调 后 的 7 重 
交叉 验证 试验 优化 结果 
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使 用 最 优 参数 进行 Jackknife 试验 计算 真实 最 优 预测 准确 率 , 使 用 命令 
$svm-train —c 0.933032991537 —g 78.7932424541-v7 文件 名 
得 到 Jackknife 试验 预测 准确 率 的 屏幕 截图 (图 8-22). 


总 
rr Sali loa: Pe GO a lig Ml Sect I 


0 ,035786 ， 
psSY x 1310, nBSY = 884 


optim ation finished, Fiter 

nu aE: “ar 2288 

obj = 15 549 .658856 , rho = 0.386034 
RS = 222 = 1665 


ation finished, Fiter = 3508 
515226 

jobs = ae ee re 0. 160666 
421, nBSY 

op mn finished, #iter = 1788 

v= ie: 382768 


obj = ~822,035786, rho = 0.159915 
inS¥ = 1310, nBSY = 884 


cy = 68.3115% 
ar/spooi/aail/ro 


t 
c 0.933032991537 -g 78.7922424541 -v 6957 1-2-3-4§ = 


图 8-22 ”序列 家 族 层 的 6957 个 样本 的 一 肽 频数 输入 样本 集 在 C=2-01, y= 2° 时 , 通过 
Jackknife 试验 得 到 的 预测 准确 率 


总 的 支持 向 量 数 为 4064. 占 总 样本 数 的 58.4%. 

2. 一 肽 频数 向 量 二 元 分 类 结果 

序列 家 族 层 的 6957 个 一 肽 频数 编码 方法 编码 样本 的 二 元 分 类 器 的 7 HAC 
验证 预测 准确 率 和 Jackknife 试验 预测 准确 率 显示 在 表 8-15 中 . BARS. SHIA 
量 数 以 及 支持 向 量 与 样本 数 的 比率 的 详细 信息 显示 在 表 8-16 中 . 

3. 二 肽 频数 向 量 四 元 分 类 结果 

二 肽 频数 编码 方法 编码 得 到 的 向 量 维 数 为 400, 同 源 超 族 层 共 有 6957 个 样本 ， 
那么 样本 与 维 数 的 比 为 17.39. 

经 过 第 几 轮 优 化 之 后 ,确定 了 在 这 个 向 量 集 上 目标 函数 (8.6) 式 中 的 参数 为 
C=2!9, 核 函 数 (8.5) 式 中 的 参数 都 为 y=27°. 这 时 二 肽 频数 输入 样本 集 总 的 四 元 
预测 准确 率 为 74.2849%. 调整 命令 中 参数 C 和 y 的 取 值 范围 到 可 以 覆盖 最 优 区 
域 , 使 用 命令 
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表 8-15 FREE 6957 个 一 肽 频数 样本 的 折 和 又 类 二 元 分 类 7 重 交 叉 验证 预测 准确 率 与 
Jackknife 试验 预测 准确 率 的 比较 


分 类 器 7 重 交叉 验证 预测 准确 率 /多 Jackknife 试验 预测 准确 率 / 邑 
avs. 8 86.4991 84.6749 
a vs. a-B 80.865 80.865 
a vs. fss 97.72 97.72 
B vs. a-B 77.4736 77.6043 
GB vs. fss 97.442 96.3007 
a-@ vs. fss 98.2977 98.4922 
a vs. 其 他 86.0716 86.5747 
B vs. 其 他 84.3754 84.6917 
a-B vs. 其 他 76.1248 75.9667 
fss vs. 其 他 98.9363 99.31 
平均 准确 率 88.380 55 88.220 02 


表 8-16 ”序列 家 族 层 6957 个 一 肽 频数 样本 二 元 分 类 最 优 参 数 以 及 支持 向 量 数 与 


样本 数 的 比率 
参 

gam 一 支持 向 量 数 的) 。。 支持 向 量 数 与 样本 数 的 比率 
avs. B 22.0 25.0 1106 0.389 
a vs. a-3 25.0 2 和 0 2084 0.472 
a vs. fss 25-0 27.0 837 0.335 
B vs. a-B 25.0 20 2368 0.531 
B vs. fss 0. Qi.0 465 0.183 
a-B vs. fss 25.0 27.0 895 0.218 
a vs. 其 他 0 26.0 2711 0.390 
B vs. 其 他 20 aaa 2575 0.370 
a-B vs. 其 他 22.0 26.0 3994 0.574 
fss vs. 其 他 25-0 27.0 1481 0.213 


$python grid.py —log2c -1,3,1 -log2g 6,9,1 -v 7 文件 名 
图 8-23 为 使 用 7 重 交 叉 验证 试验 进行 参数 调整 后 , 规定 参数 范围 内 各 个 点 的 预测 
准确 率 轮廓 图 
为 了 确定 最 优 准 确 率 分 别 对 上 面 三 个 点 进行 了 Jackknife 试验 . 使 用 命令 


svin-train —c 0.965936328925 -g 30.9099625256 -v 1572 文件 名 


实验 证 明 , 当 C=210, y=27° 时 , 四 元 预测 准确 率 达 到 最 高 , 为 74.5436%. BR 
幕 截图 见 图 8-24. 最 后 一 轮 循环 一 共 得 到 了 约 5538 个 支持 向 量 , 支持 向 量 占 总 样 
AN 79.6%. 
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2p-1-2-3-4 7 i 
os 
73 一 一 
8.5 7255 
72— 
71.5 
8 i 


7.5 lg(gamma) 


图 8-23 ”序列 家 族 层 的 6957 个 样本 的 二 肽 频数 输入 样本 集 的 参数 C 和 7 经 过 微调 后 的 7 重 
交叉 验证 试验 优化 结果 


会 话 编辑 查看 书签 设置 帮助 、、、_ 


optimization finished，#iter = 3561 
nu = 0.286254 
obj = -850.751842，rho = -0.093092 
InS¥ = 1937，nBSV = 118 

° 


optimization finished, iter = 6413 
nu = 0.371205 
obj = -1854.051752, rho = -0.305873 
InS¥ = 3190, nBSV = 414 

三 


optimization finished，#iter = 3911 
nu = 0.110176 
obj = ~271.369766，rho = -0.111133 
mnSVY = 1058, nBSV = 0 

. 


optimization finished, +iter = 6120 
nu = 0.363517 

obj = -1786.323953, rho = -0.228658 
SY = 3049, nBSV = 418 


optimization finished, iter = 1629 
Inu = 0.102570 

obj = —257.004194, rho = 0.044250 
SV¥ = 992, nBSV = 3 

° 


optimization finished, #iter = 1688 

u = 0.063967 

obj = —259.228329, rho = 0.099415 

SV = 1016, nBSY = 2 

otal nSV = 5538 

ross Validation Accuracy = 74.5436% 

[rooteydf libsvm-2.8]# ./svm-train -c 2 -g 128 -v 70 2p-1-2-3-4ff 


图 8-24 序列 家 族 层 的 6957 个 样本 的 二 肽 频数 输入 样本 集 在 C=2)°, y=27° 时 , 通过 
Jackknife 试验 得 到 的 预测 准确 率 


4. 二 肽 频数 样本 二 元 分 类 结果 
序列 家 族 的 6957 个 样本 由 二 肽 频数 编码 方法 编码 的 向 量 集 的 二 元 分 类 器 的 7 
重 交叉 验证 试验 分 类 准确 率 与 Jackknife 试验 分 类 准确 率 显示 在 表 8-17 中 . 二 元 
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分 类 器 的 优化 相应 参数 、 支 持 向 量 数 以 及 支持 向 量 数 与 样本 数 的 比率 的 详细 信息 
显示 在 表 8-18 中 . 


表 8-17 ”序列 家 族 6957 个 二 肽 频数 样本 的 折 丢 类 二 元 分 类 7 重 交 叉 验证 预测 准确 率 与 
Jackknife 试验 预测 准确 率 的 比较 


分 类 器 7 重 交叉 验证 预测 准确 率 / 吧 Jackknife 试验 预测 准确 率 / 吧 
avs. B 88.0098 88.225 
a vs. a-3 80.5933 80.6159 
a vs. fss 96.68 97.8 
B vs. a-B 79.9417 80.1885 
GB vs. fss 97.6781 97.9142 
a-3 vs. fss 98.2977 98.4436 
a vs. 其 他 86.0141 86.2297 
B vs. 其 他 84.9073 85.5254 
a-B vs. 其 他 76.5129 76.2973 
fss vs. 其 他 99.1951 99.2957 
平均 准确 率 88.783 89.053 53 


表 8-18 ”序列 家 族 6957 个 二 肽 频数 样本 的 最 优 参数 、 支 持 向 量 数 以 及 支持 向 量 数 和 
样本 数 的 比率 


分 类 器 = 支持 向 量 数 ( 约 ) 。 支持 向 量 与 样本 的 比率 
avs. B got 26.8 1780 0.626 
a vs. a-B 20.0 2*.0 2955 0.669 
a vs. fss 2 2 1014 0.406 
B vs. a-B 25 27.0 2588 0.581 
B vs. fss 25.0 27.0 954 0.375 
a-G vs. fss 97.0 27.0 1008 0.245 
a vs. 其 他 27.0 go 2906 0.418 
B vs. 其 他 ae >. lo 2540 0.365 
a-B vs. 其 他 22 2 4486 0.645 
fss vs. 其 他 2 28.0 1475 0.212 


在 样本 数量 增加 后 二 元 和 四 元 预测 准确 率 明 显 提高 . 由 于 考虑 到 了 样本 集 不 平 
衡 的 问题 大 幅 增 加 了 (few secondary structures) 类 的 样本 数量 , 使 预测 该 类 对 其 他 
类 别 的 分 类 准确 率 快 速 上 升 . 例如 二 元 分 类 器 “fss vs. 其 他 ”的 Jackknife 试验 预测 
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准确 率 超过 了 99%, 这 么 高 的 预测 准确 率 可 以 使 我 们 断定 few secondary structures 
类 结构 域 的 一 级 序列 与 其 他 三 类 结构 域 的 一 级 序列 有 绝对 的 差别 . 

5. 序列 家 族 层 不 同 维 数 向 量 预测 结果 的 比较 

上 面 几 节 给 出 了 序列 家 族 层 6957 个 样本 依次 依据 一 肽 频数 编码 方法 、 二 肽 频 蛋 
数 编码 方法 和 三 肽 频数 编码 方法 把 氨基 酸 残 基 序列 映 射 到 不 同 向 量 空间 后 的 预测 | 
准确 率 评 估 , 见 图 8-25. 


序列 家 族 层 四 元 预测 准确 率 比 较 


08.3115 


图 8-25 序列 家 族 层 的 代表 个 样本 的 一 肽 、 二 肽 、 三 肽 频数 向 量 预测 准确 率 比 较 图 


8-25 显示 出 的 准确 率 变化 与 图 8-13 和 图 8-20 所 显示 出 的 准确 率 变化 趋势 ， 
大 不 一 样 : 图 8-13 和 图 8-20 所 显示 出 的 准确 率 变化 趋势 是 前 高 后 低 , 图 8-25 而 所 
显示 出 的 准确 率 变 化 趋势 是 前 低 后 高 . 此 时 样本 的 数量 为 6957 个 , 而 二 肽 频数 编 
码 方法 编码 的 向 量 维 数 为 400. 这 是 样本 数量 与 向 量 维 数 的 比值 已 经 超过 了 17, 这 
时 二 肽 频数 编码 方法 编码 的 向 量 已 经 能 够 显示 出 比 一 肽 频数 编码 方法 编码 的 向 量 
在 获取 和 蛋白质 一 级 序列 信息 的 优势 了 . 因此 预测 准确 率 大 大 高 于 一 肽 频数 向 量 的 
预测 准确 率 . 

8.3.5.4 不 同 数量 样本 的 预测 结果 比较 

为 了 明晰 由 于 样本 数量 的 增加 致使 预测 准确 率 的 变化 情况 , 我 们 作 了 下 面 的 比 
较 . 首先 比较 一 肽 频数 编码 方法 编码 的 向 量 预 测 准确 率 . 


根据 图 8-26, 一 肽 频数 编码 方法 编码 的 向 量 为 20 维 的 向 量 , 当 样 本 数量 从 820 
增加 到 6957 时 预测 准确 率 增 加 了 约 14%. 


， 8.3 蛋白 质 结构 域 的 支持 向 量 机 预测 方法 . 149 . 


一 肽 频数 向 量 预测 准确 率 比 较 


61.9563 


拓扑 层 样本 ” 同 源 超 类 样本 ”序列 家 族 样本 


8-26 ”一 肽 频数 编码 方法 编码 的 向 量 在 样本 数量 分 别 为 820、1572 和 6957 时 的 
预测 准确 率 比 较 


8-27 显示 出 , 当 样 本 数量 从 820 增加 到 6957 时 二 肽 频数 编码 方法 编码 的 向 
量 的 预测 准确 率 增加 了 约 20%. 这 个 增加 值 比 图 8-22 显示 的 增加 值 大 些 , 说 明 二 
肽 频数 编码 方法 当 样 本 数量 足够 大 时 能 更 多 反映 残 基 序列 的 结构 本 质 . 因此 当 样 
本 数量 少时 , 尽量 用 产生 低 维 数 的 编码 方法 ; 当 样 本 数量 多 时 ,可 以 考虑 使 用 维 数 
高 的 编码 方法 . 


二 肽 频数 向 量 预 测 准确 率 比 较 


80 74.5436 


59.7328 


准确 率 


拓扑 层 样本 ” 同 源 超 类 样本 ”序列 家 族 样本 


图 8-27 ”二 肽 频数 编码 方法 编码 的 向 量 在 样本 数量 分 别 为 820、1572 和 6957 时 的 
预测 准确 率 比 较 
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对 于 三 肽 频数 编码 方法 编码 的 向 量 当 样本 数量 增加 时 的 预测 准确 率 暂 时 不 作 
比较 . 

8.3.5.5 ”样本 同 源 性 提高 对 预测 准确 率 的 影响 

在 考察 样本 数量 增加 时 和 蛋白质 折 和 倒 类 型 预测 准确 率 的 变化 情况 , 我 们 在 CATH 
数据 库 的 不 同 层 取 得 样本 . CATH 数据 库 不 同 层 样本 的 同 源 性 是 不 一 样 的 , 级 别 越 
高 同 源 性 越 高 . 拓扑 层 的 样本 之 间 的 同 源 性 不 如 同 源 超 族 层 样 本 之 间 的 同 源 性 高 ， 
同 源 超 族 层 的 同 源 性 不 如 序列 家 族 层 样 本 之 间 的 同 源 性 高 . 特别 是 在 做 序列 家 族 
层 的 折 县 类 型 预测 时 , 为 了 防止 产生 样本 集 不 同 的 问题 我 们 取 了 CATH 数据 库 中 
全 部 的 few secondary structures 类 型 的 全 部 结构 域 来 作为 fss 类 的 样本 . 这 些 都 会 
对 预测 准确 率 产 生 一 定 的 影响 . 

为 了 考察 序列 同 源 性 对 预测 准确 率 的 影响 , 设计 了 下 面 的 试验 . 首先 , 从 同 源 
超 族 样本 中 取出 820 个 样本 .在 每 个 类 型 中 连续 取样 本 数量 如 下 : a 类 : 227; B 
类 : 139; a-6 类 : 368; fss 类 : 86. 为 了 方便 比较 , 每 个 类 别 所 取 的 样本 数 与 拓扑 层 
每 个 类 别 样 本 数量 一 样 . 运用 一 肽 频数 编码 方法 编码 结构 域 一 级 序列 , 进行 优化 的 
结果 见 图 8-28. 


1572-820 


lg(C) 过 
图 8-28 同 源 超 族 层 的 820 个 样本 的 一 肽 频数 输入 样本 集 的 7 重 交 叉 验 证 试验 优化 结果 


经 过 优化 可 知 , 样本 集 在 C=272, 7=212 时 取得 最 高 预测 准确 率 . 计算 C=27?, 
?7=212 时 样本 集 的 Jackknife 试验 预测 准确 率 . 结果 见 屏幕 截图 8-29. 

然后 ,从 序列 家 族 样本 中 取出 820 个 样本 . 在 每 个 类 型 中 连续 取样 本 数量 如 
下 : a 类 : 227; BK: 139; a-B 类 : 368; fss 类 : 86. 运用 一 肽 频数 编码 方法 编码 结 
构 域 一 级 序列 , 进行 优化 的 结果 见 图 8-30. 

经 过 优化 可 知 , 样本 集 在 C=28.6, 7=20.1 时 取得 最 高 预测 准确 率 . 计算 C=2°°, 
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au aa ae 书签 设置 MDD 


obj = -35286.704281, rho = 9.575550 
msv = 264, nBsv = 


oes finished, #iter = 14698 

uw = 0.5 

pod = ae 364116, rho = 11.010158 
= mor mBSV = 289 


° sigs genes finished, #icer = 3452 
= 0.36 
pbs = = 990.54s 545105, a 25.937237 


sptinization finished, #iter = 3435 


bj = acnding —_— rho = 21.146182 
nSV = 123, nBSsv = 67 

‘otal nsv = 679 
curacy = OA (0/1) 
Cross Validation Accuracy = 55.3114 


+ fi 
{sun@sun libsvm-2.4])@ ./swm-train -c 147.03338944 -g 2.29739670999 -v 820 1572-8208] al 


8-29 AVR A 820 个 样本 的 一 肽 频数 输入 样本 集 在 C=2"?, y=2!? 时 , 通过 
Jackknife 试验 得 到 的 预测 准确 率 


6957-820 P 65.5 


8-30 序列 家 族 层 的 820 个 样本 的 一 肽 频数 输入 样本 集 的 7 重 交 叉 验 证 试验 优化 结果 


?=20.1 时 样本 集 的 Jackknife 试验 预测 准确 率 . 结果 见 屏幕 截图 8-31. 
把 图 8-29 和 图 8-31 的 结果 与 图 8-4 的 结果 比较 , 见 图 8-32. 可 以 看 出 当 其 他 


条 件 不 变 的 情况 下 , 同 源 性 增加 时 预测 准确 率 提 高 . 


-152- 


8.4.1 


从 8.3.5 节 的 结果 中 可 以 总 结 出 如 下 规律 : 


8-32 


结论 


‘otal msv = 607 
SEE ow (0/1) 


Seed oad finished, fiter = 2434 
f = 0.460330 

jobs = -21817.889610, rho = 17.231209 
SV = 244, nBSV = 220 


cast coat finished, #iter = 1685 
mu = 0.524150 

cbj = -28981.406022, rho = 24.947594 
SV = 322, nBsV = 300 


oe fleur eto finished, ficer = 1461 
mu = 0.203377 
ost = -7915.118313, rho = 20.082038 


sv = 104, nBsv = 79 


* 

jpeinizaci on finished, #iter = 691 
= 0.335238 

ob4 = -10944.369874, eee 12.017931 

Insv = 131, nBSV = 11 


peinizacion finished, #icer = 768 
0.321846 

obi = -6156. eee rho = 18,180172 

iInsv = 83, nBsv = 

Ege s finished. #icer = 1085 
0.225188 


= = -6061,710955, rho = 11.635545 
5 


crose Validation Accuracy = 65.4457% 


第 8 章 ”蛋白质 折 登 类 型 的 预测 


{sun@sun libswn-2.4])$ ./svm-train -c 97.0058602567 -g 1.07177346254 -v 820 6957- -s20ft | 5 


图 8-31 序列 家 族 层 的 820 个 样本 的 一 肽 频数 输入 样本 集 在 C=27?, y=2)? 时 , 通过 
Jackknife 试验 得 到 的 预测 准确 率 


同 源 性 增加 时 预测 准确 率 变化 比较 


准确 率 


“拓扑 层 样本 同 源 超 族 层 样本 ”序列 家 族 层 样本 


预测 准确 率 比 较 


8.4 


小 


结 


一 肽 频数 编码 方法 编码 的 向 量 在 样本 数量 为 820 时 取 自 不 同 层次 样本 的 


8.4 小 结 » BES 


(1) DO REAS Ta) AS Se A a BR AY Ia) AY Sa ER DB Se DK Hl). (A EH A, 
基 酸 残 基 在 序列 种 出 现 的 频率 而 不 考虑 其 他 情况 , 在 样本 数量 充分 时 不 能 得 到 好 的 
预测 效果 . 
(2) 结构 域 的 一 级 序列 中 相 邻 残 基 的 关系 对 折 登 类 型 有 重大 的 影响 作用 . ZEST 
”三 类 型 预测 时 , 考虑 到 了 紧邻 残 基 后 预测 准确 率 有 所 增加 . 

(3) 结构 差别 大 的 结构 域 之 间 的 二 元 分 类 准确 率 高 , 结构 差别 小 的 结构 域 之 间 
的 王 元 分 类 准确 率 低 :比如 二 元 分 类 器 “a vs. 8B”. “a vs. fss”. “GB vs. fss”. “a-G 
vs. fss”. “GB vs. 其 他 ”以 及 “fss vs. 其 他 ”等 二 元 分 类 器 的 预测 准确 率 都 较 高 ; 而 
sa vs. ar-6" 、“8 vs. a-B”. “a vs. 其 他 ”以 及 “a-6 vs. 其 他 ”的 预测 准确 率 较 低 . 

(4) 预测 准确 率 高 的 二 元 分 类 器 的 支持 向 量 数 与 样本 数 的 比率 较 低 , 反之 亦 然 . 

(5) 增加 样本 数量 是 治疗 预测 准确 率 低 这 个 顽症 的 灵丹妙药 . 

(6) 样本 数量 的 增加 同样 也 可 以 导致 支持 向 量 与 样本 数量 的 比率 的 下 降 . 

(7) 预测 准确 率 不 但 与 样本 数量 有 密切 联系 还 与 输入 空间 维 数 有 密切 关系 . 

(8) 在 其 他 条 件 不 变 的 情况 下 , 样本 同 源 性 增加 预测 准确 率 提 高 . 

(9) 最 优 参数 C 与 7 的 变化 没有 明显 规律 . 
另外 , 在 运算 过 程 中 还 可 以 总 结 出 : 

(1) 最 优 参数 不 是 通过 一 次 优化 就 能 得 到 的 , 必须 经 过 反复 几 次 调整 参数 的 取 
| BEA HERA HE RHE SHG A; 

(2) 通过 对 参数 的 微调 可 以 提高 预测 准确 率 ; 

(3) 使 用 7 重 交 叉 验 证 试验 优化 参数 能 得 到 最 优 准 确 率 的 参数 有 时 是 一 个 点 ， 
有 时 是 几 个 离散 点 , 有 时 则 是 一 个 或 几 个 连续 的 区 域 ; 

(4) 样本 集 容 量 的 增加 使 计算 成 本 急剧 上 升 ; 

(5) 虽然 对 于 约 7000 个 样本 折 登 类 型 预测 的 运算 几乎 已 经 达到 了 实验 室 计 算 
能 力 的 极限 , 但 是 考虑 到 三 肽 频数 编码 的 向 量 的 预测 准确 率 在 样本 数量 增 量 的 情况 
下 仍然 没有 大 幅 改 观 , 说 明 样 本 数量 显然 仍然 偏 小 . 


8.4.2 ”讨论 


进行 蛋白 质 结构 域 折 登 类 型 预测 准确 率 依 赖 于 两 个 因素 : 预测 方法 和 样本 集 . 
恰当 的 、 有 更 好 泛 化 能 力 的 预测 方法 能 够 更 快 、 更 准 地 进行 结构 域 的 预测 . 作为 预 
测 蛋白 质 折 有 登 类 型 工具 的 SVM 包含 了 三 个 基本 要 素 : 样本 集 和 编码 规则 、 学 习 机 
和 决策 函数 . 实验 中 , ” 肽 频数 编码 规则 用 来 把 结构 域 的 一 级 序列 嵌入 到 输入 空间 
中 , 得 到 的 向 量 决定 了 监视 器 和 学 习 机 的 工作 环境 . 能 被 SVM 分 类 的 向 量 所 具备 
的 基本 条 件 就 是 它们 都 必须 在 同一 个 向 量 空间 中 , 向 量 处 于 同一 个 空间 中 的 必要 
条 件 是 它们 的 维 数 必须 相同 . 然而 , 不 同 的 结构 域 往往 包含 不 同 数量 的 氨基 酸 残 基 . 
因此 把 包含 不 同 数量 残 基 的 结构 域 转化 为 同一 个 空间 中 的 向 量 非 常 重要 . 在 以 往 的 
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机 器 学 习 方 法 中 , 把 氨基 酸 序列 符 入 输入 空间 的 编码 方法 分 为 两 类 : @ 滑 窗 方法 ; 
Q n 肽 频数 方法 . 这 两 种 方法 的 目的 是 相同 的 , 就 是 把 用 字母 表示 的 不 等 长 的 氨基 
酸 序列 转换 成 为 用 数字 表示 的 具有 相等 维 数 的 向 量 , 并 且 通 过 这 种 转换 尽 可 能 地 从 
氨基 酸 序列 中 挖掘 更 多 的 信息 . 而 这 两 种 方法 所 使 用 的 策略 则 有 所 不 同 . 滑 窒 方法 ; 
AIK | 固定 且 为 单数 的 滑 窗 从 氨基 酸 序列 中 采集 样本 , 采集 到 的 整个 样本 的 类 和 
别 由 样本 中 间 一 个 氨基 酸 的 类 别 来 确定 . HRA BIA SA, 相对 应 的 向 量 长 度 为 
Q1x1. 这 种 编码 方法 适用 于 样本 长 度 比较 短 的 样本 集 , 所 以 多 用 于 蛋白 质 的 二 级 结 和 
构 预测 中 . 运用 ” 肽 频数 编码 方法 首先 要 把 氨基 酸 序列 包含 所 有 的 ” 肽 频数 计算 
出 来 , 归 一 化 后 成 为 输入 空间 中 的 向 量 , 向 量 的 长 度 为 20". 实验 中 一 般 凡 取 1、2 | 
或 3. 宗 为 工时 实际 得 到 的 样本 就 是 每 个 氨基 酸 在 序列 中 的 百分率 , 这 种 样本 反映 
不 出 相 邻 氨基 酸 之 间 的 相互 关系 . n 大 于 3 通过 这 种 方法 得 到 的 输入 向 量 维 数 过 
高 , 超出 了 一 般 计 算 机 的 计算 能 力 , 所 以 不 常用 . 由 于 样本 空间 向 量 的 长 度 与 氨基 
酸 序列 的 长 度 无 关 , 所 以 这 种 方法 既 适 用 于 样本 长 度 较 短 的 样本 集 , 也 适用 于 样本 
长 度 较 长 的 样本 集 . 这 种 方法 多 用 于 蛋白 质 结构 域 预测 和 亚 细 胞 结构 预测 中 . 

实验 中 使 用 的 样本 集中 的 元 素 取 自 CATH 结构 域 数据 库 中 的 拓扑 层 的 结构 域 
和 同 源 超 族 层 的 结构 域 . 由 于 样本 集中 的 样本 数量 和 相互 之 间 的 同 源 性 影响 预测 的 
泛 化 能 力 , 所 以 样本 集 尽 可 能 选用 同 源 性 较 小 的 样本 . 又 因为 样本 数量 越 多 预测 准 
确 率 就 越 高 023, 为 了 客观 地 比较 预测 方法 的 优 劣 选 择 了 CATH 中 的 拓扑 作为 样 
本 集中 的 元 素 . CATH 数据 库 和 常常 使 用 的 SCOP 数据 库 有 所 不 同 , CATH 数据 库 ， 
中 把 o/b 和 aw+ 6 结构 同 归 于 a-6 类 , 而 且 引 入 了 小 型 二 级 结构 (fss) 这 一 类 别 ，! 
通过 这 些 样本 训练 得 到 的 SVM 具有 更 好 的 泛 化 性 能 . 

使 用 支持 向 量 机 方法 对 蛋白 质 结构 折 麦 类 型 预测 不 能 达到 百分之百 准确 的 原 ， 
因 在 于 : 

(1) 人 们 对 于 残 基 的 分 子 力学 和 分 子 动力 学 性 质 了 解 不 够 透彻 , 因此 不 能 从 氮 
基 酸 残 基 的 理化 性 质 来 对 其 形成 的 高 级 结构 进行 精确 的 理论 分 析 . 

(2) 一 级 结构 到 高 级 结构 的 折 肢 受 到 多 种 因素 的 影响 , 这 些 因素 包括 物理 因素 、 
化 学 因素 以 及 生物 因素 . : 

(3) 一 级 结构 到 高 级 结构 的 折 礁 属于 不 适 定 问题 . 即 高 级 结构 的 轻微 变化 , 在 
反 演 原因 时 可 能 会 导致 完全 不 同 的 一 级 结构 . 例如 类 似 的 高 级 结构 可 能 是 由 完全 
不 同 的 一 级 结构 确定 的 . 

(4) 解析 高 级 结构 时 的 误差 , 即 数据 噪音 . 

(5) 二 级 结构 和 结构 域 定 义 的 不 统一 . 蛋白 质 的 二 级 结构 和 结构 域 到 目前 为 目 
没有 一 个 统一 的 定义 , 每 种 定义 都 是 根据 一 定 的 需要 定义 的 . 

(6) 在 使 用 机 器 学 习 理 论 进行 预测 蛋白 质 的 结构 时 , 没有 理想 的 向 量化 方法 . 
目前 使 用 的 向 量化 方法 都 存在 缺陷 . 
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在 支持 向 量 机 的 应 用 过 程 中 , 二 元 分 类 是 多 元 分 类 的 基础 . 然而 处 理 的 问题 往 
往 是 多 种 类 型 数据 的 分 类 问题 55. 因此 对 于 生物 领域 的 科学 工作 者 来 说 处 理 各 
种 多 元 分 类 的 问题 尤为 重要 . 在 未 来 生物 信息 学 的 研究 中 , 支持 向 量 机 的 主要 应 用 
领域 一 方面 在 于 对 于 已 经 存在 的 数据 库 或 新 建立 的 数据 库 中 的 数据 进行 多 元 分 类 
以 便 积累 更 多 的 知识 ; 另 一 方面 在 于 开发 新 的 多 元 分 类 算法 59|. 
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3coxz2-AS.1 
lfua-1-AUTO.1 
lrec-2-DOMAK 
1scue-2-AS 
1stme-1-AUTO.1 
1mdaj-1-GJB 
2ltna 

1bdo-1-AS 
1nox-1-GJB 
lovb-1-GJB 
lirk-1-AS 

6tmne 

2fox 
2admb-1-AUTO.1 
lgog-3-AS.1 
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续 表 
2tmdb-3-AS 
1trkb-3-AS 
Atsla 
1lgtme-2-AUTO.1 
1tssb-2-DOMAK 
lhip 
1Imrrb-1-DOMAK 
laozb-2-AS 
2admb-2-AUTO.1 
lcdta 
ltiic-1-GJB 
9apib 
2mev4 
lgpmd-4-AS 
lhan-2-AUTO.1 
lpkyc-3-AUTO.1 
4rxn 
3cla 
ledn-1-AS 
2dln-1-AS 
lcgu-4-GJB 
Ichmb-1-DOMAK 
1lpoc-1-DOMAK 
2hipb-1-DOMAK 
ladeb-2-AUTO.1 
4rhv4 
ladd-1-AS 
letu 
lpbp-2-DOMAK 
2scpb-1-DOMAK 
256ba 
1lpdnc-2-AS _ 
lcolb-1-DOMAK 
1fbl-1-AS 
1bds 
2abk-2-AS 
lahb-2-GJB 
lavhb-4-AS 
2bltb-2-AUTO.1 
lavhb-3-AS 
1cle-3-AS.1 
Acpai 
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_ laozb-1-AS 

1fkf 

ltcba-1-AS 
lhxn-1-AS 
lpnt-1-AS 
lchbe-1-DOMAK 
lhiws-1-AS 
ldpgb-2-AUTO.1 
lkinb-1-AUTO.1 
3mddb-3-AS 
6rlxc-1-DOMAK 


lbneb-3-AS 
lgal-3-AS 
1knb-1-AS 

6dfr 

ltcra-2-GJB 
1sra-1-AS 
lregy-1-AUTO.1 
3mddb-1-AS 
9insb 

ltrkb-1-AS 


lgog-2-AS.1 
lhnf-2-AS 
2dnja-1-AS 
ldupa-1-AS 
2olba-2-AS 
lesmb-1-AUTO.1 
3tima 

2ilb 
lhmpb-1-AUTO.1 
1tif-1-AS 
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BER 
2tmdb-3-AS 
lyptb-1-AUTO.1 
1lbpha-1-DOMAK 
2hhmb-2-DOMAK 
Irlr-1-JAC 
1whi-1-AS 
1cdlg-1-DOMAK 
2tmvp 
1ctn-3-AS.1 
1cbh 


源 自 : http://www.compbio.dundee.ac.uk/~www-jpred/data/pred_res/513_set.html 


Mize 3 ”蛋白 质 结 构 域 拓 扑 层 预测 样本 集 


1. Uo 螺旋 为 主 2 
lcuk03 1kgqA1l lbgw03 11x100 1bgf00 lmhlC0 lbg8A0 1j09A2 
llea00 lagrE2 lanv01 le3aAl 1ddf00 lfrvBO ， 1lihp02 lqbhAO 
ley3A2 2trcP2 lzymA2 2end00 lbucAl 1b4uA0 1a6q02 1f6vA0 


ImpgA3 lbvp13 1c3cAl1 1pmi02 lpbwAO 1ft5A0 1a81A2 leijAO 
1bfmAO lvom04 lbgvA3 2occD0 lderA1l la8vA1 leyvA0 ldnyAO 


lhryAO 1jvr00 la8rAl laihAO 1lbd00 lileO1 lqqvA0 lmylAO 
lrlr01 1kblA2 1fjgO0 Irss00 laorA2 1b7eA2 1pbv02 lbmtA1l 
lahuA4 1vpu00 1msk02 lecl02 2pgd02 1lm8V1 1d0cA3 1jhgAO 
2tdx02 lagrE1 lecl04 lvom05 lqmgA2 1101D2 2dpmA2 1bt3A0 
6insEO lutg00 ladeA2 lpreC2 lak000 2hdhA2 la9xA4 16vpA0 
1lbu01 lala01 2abk01 lvsgA2 ldnpA3 lfgjAl 1bg602 1f0jA0 
lhyp00 1nkl00 2tct02 lvin01 lcsh01 lag200 1c05A1 laroP1 
1bip00 Icsc02 1gdz00 lpjr04 、 lcsmA0 1pah00 1qlaB2 1daqA0 
1a36A4 1liku01l lnpc02 lepo00 NiaorA3 lhp800 ”1lqmmA5  1e3aA2 
lerkAl 1beo00 1rlr02 1hlm00 luby00 lalvA3 2hgsA3 1qhdA2 
lcmbAO 2ts102 lcipA2 lwer02 1sig00 InvvS2 1lbe3F0 lhhsA4 
1bpb01 lycqAO 1d5tAl lwer01 1vnc02 lej5A0 ltbaA0 1i1iP3 
laf701 le7aAl 1aoa01 lapmE1 5eat02 1ljweAO 1du2A0 IdmtA2 
lvom03 lbvp11 lmkrA2 laru01 lafrAO liieAO 1e39A2 lhm5A3 
1jud02 ldulAO 1cf9A2 153100 1phb00 1lsknPO 1h8eD3 1e3aB3 
1fa0A3 lewqA3 1lrv00 1qsaA1l 1a1700 1lpprM1 lcem00 5eas01 
lvdfAO IclqA4 lqlaCO - Icb8Al1 lfgjA2 1dqsA2 llre00 - 1bqv00 
lehs00 1dlc01 lom2A0 lm1nB4 labz00 1qb4A1l 1lbeAl 1be3C0 


laty00 lfupA2 1brwA3 1poc00 1bkdS1 leulA2 lgovM1 lhbnB2 
1lknyA2 2occA0 1jalA3 laa7A1 116eA0 1f31A2 1lbgxT4 lvncO1 


2erl00 1e68A0 1dg3Al 2ccyA0 1lby1A0 1jb0A0 lbrrA0 2lisAO 
lmtyG1 lyge05 1f7uA2 1lbucA3 1n45A0 1g7dA0 1fx8A0 ~~ IdvkAO 
lecmAO 1cii01 1f81A0 IchkA1 1b91A0 1gleBO lefyAl leo0A0 
1hb6A0 1a5t03 lglqA2 

2. 以 6 BAL 

1pdc00 lahl00 lytfD2 lhavAl lInpoAO 3bcl00 lkapP1 

1skz01 1pft00 ldkgA2 1jsg00 2occF0 1p35A0 1lxa01 

1tle00 Irkd01 lauuA0O 1pk400 laqt01 loen02 lair00 

lextA2 1lkoA2 ldorA2 left03 lamm01 1dhx01 1dlc03 

1lml03 ldar03 1fgp00 1bli02 lmdaL0 lois02 1f8dA0 


lcdq00 lospO2 laqcAO 1pkm03 1dkxA1l ll]ktA0 1lrie00 
1bi6HO lmknAO lihvAO 1flmAO lmwaA2 lpreA3 2bbkHO 
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ltpm00 ”lospO1 
2viuA2 1mkcAO 
llpbAO ”1qslA1l 
lhenBO 1lci0A0 
lfbr00 1pnkB2 
lumuA0 1dhx04 
lct100 4htcl0 
lejxBO lecl03 
1kmxA0 ldupA0 
lbe3I0 lrhoA0 
ligrA2 lgpr00 
lexkAO  1jz8A5 
lep3B3 _—IcelAO 
ljhnA2 = la2vA3 
3. a-B 结构 

IrthAl 1p32A0 
ligd00 ldm9A0 
lfmtA2 I1bnkAO 
1af500 lbwzAl 
lbepB1 lhdmB1 
ledgA3 = 1cz4A2 
2msbA0 l1qlmA1 
ldpe03 = 1e01A0 
laak00 1fd4A0 
lfcbA1 1e53A0 
lmkaA0 1e44B0 
lonc00 1h5pA0 
2polA3 1g8fA2 
lezm01 = leg7A3 
1kw3B1 1lfx3A0 
lmsk01l1 1lejdAl 
2cba00 1plq00 
lby200 2bnh00 
lmb100 1ligrAl 
luox00 ldctA2 
ldiv01 1lrhs01 
ladn00 1lfuiA2 
1svq00 lag8A2 
laba00 = 1chmA1 
lcfe00 lmla02 
1ble00 lqhaA2 


lpcfAO 
lqldAO 
laonOO 
1lml04 
lseiA2 
lyagA2 
leh6A1 
llci03 
lhp7Al1 
la5mC1 
1lpmi01 
1pdr00 
115bA0 
1hxn00 


1bp101 
1bp102 
3daaA2 
1fuiA3 
lemvA0 
lami04 
1bd0A1 
1b8bA0 
lbowAO 
1c8zA0 
1d8hA0 
1qndA0 
lfvgA0 
lev0A0 
1ff9A2 
1bx4A2 
1fsu02 
1fbxA2 
1fjgC2 
4jdwAO 
1b94A0 
lag8Al1 
2ctc00 
1tplA2 
1c8kA2 
lvpt00 


1qu4A1l 
1bw300 
ljic00 
lfivAO 
1clh00 
lbucA2 
lsmpI0 
1whi00 
lema00 
1prn00 
laf6A0 
lggeAl 
lotcBO 
2sli03 


laa8A2 
lhymAO 
2baa02 
1d5tA3 
lica00 
1chc00 
luxy02 
1kvdBO 
IxvaAl 
lgatAO 
lecrA2 
1b7yB1 
9wgaAl 
2nef00 
lex7Al1 
1yua01 
lvcc00 
1svb02 
lotfA0 
lcbn00 
1dioBO 
leq6A0 
lcbf01 
1tdj03 
lbrwA2 
lekjAO 


lhplA2 
1knb00 
1lla02 
1svb01 
1thv00 
lcauBO 
3pcgA0 
1gff10 
lvpsAO 
lygs00 
1d00A0 
1lcb8A3 
lcq3A0 
1jpc00 


2ifeA0 
1stu00 
1cksAO 
IrbIMO 
1phk01 
1bpb03 
1pkp02 
lcopD0O 
2reb02 
1kp8A2 
lejxAO 
lgpmA3 
1cii02 
lytbA2 
InoyAl 
2sicl0 
1dih02 
lhlrA4 
lbrsD0 
lc7sA2 
2hgf00 
lab8A0 
1jon00 
Irgs02 
lefuB2 
lecrAl 


lvdeAl 
2cas00 
lgclG0 
lbdfA2 
lby5Al 
1dqcA0 
lfwqA0 
lfaeA2 
1d8cA2 
1fjrA2 
1g81A3 
3aahA0 
1hed00 
1tl12A0 


1msc00 
lchkA2 
lsvb03 
1mdl01 
1b4vA2 
lpreA2 
1geo01 
IrthA5 
4rhn00 
1fim00 
1kptAO 
2phy00 
loacAl 
1bpb02 
luxy03 
3daaAl1 
1b66A0 
2antI2 
1c96A3 
ljufAl 
laorAl 
2dnjAO 
1lznbAO 
lgdoAO 
4kbpA2 
la6q01 


lm6pA0 
leulAl 
1g6q12 
1qd6C0 
1dfuP0 


1mil00 
1gnd02 
3pmgA4 
lvom02 
2hhmA1 
1gd102 
3cla00 
1gal03 
1ah600 
ltys00 
lcrkA2 
lay200 
1t1dAO 
191400 
lgccA0 
1f3cA0 
lauz00 
lap800 
2if100 
1ljbwA2 
1d0cA2 
1g3p02 
1dj7A0 
lbxeAO 
1geo02 
lqgwAO 


1bolA1l 
lbolA2 
1101A1 
1nos03 
1qkfA0 
1byrA0 
1qk9A0 
1dujAO 
lejkAO 
1dlxAO 
1bia02 
lcbf02 
1dt9A1 
leilA2 
1qf6A2 
1qd1B1 
le7uA4 
lprxA2 
1qlmA2 
1ldtvAO 
lqqcA4 
1bolAO 
lile02 
lebfA2 
lfedA3 
lqaxA2 
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续 表 


1pxtAl 1lhfc00 2bltA0 lami02 1libvB0 3pvaAO lmhdA0 lush02 
lm1inB2 1lavpA0 _liso00 lpoiAl 1dik03 1b65A0 1d4uA0 1g59A3 
1lba00 lbr6A1 tlalkAO § IcjyA2 lb7yB3 I1qr0A0O_ 7ceiBO 1f3mA0 
lcfr00 1ra900 2cevA0 IlhynPO 3ladA2 ljenAO 1qg8A0 1lgh9A0 
lnox00 ladeAl 1lpoiB0 tleulA3  IqjfAO lhzgAO ImwpAO i1dnlA2 
3pmgA3 layl01 lb4uB0 1Jj2L0 leyqA2 ”lemsAl 1d0qA0 1pfo01 
1ctt02 3pmgAl 1bg200 1k30A2 1lqklA0 1i7sA0 _ 1lgsoA4 lqenA2 
lanf02 le8gA3  1dhsOO I1qhlAO 1b78A0_ 1a4400  lefdN2 ley2A1 
llehA1l ludg00 = 1kekA3_ lauk0Ol ldbuAO lapj00 lyagA4 lhruAO 
lcby00 = 2ts101 la3aA0 1lb7bA0 IccwB2 1laol00 lcliA2 1k2fA2 
1k0zBO —_ laua01 1lhfeL3 lewqAl 1dd9A1  lavqAO 1b37A2 1hhsA1l 
llam01 luch00 lvsrA0 1f75A0 1lqorAl tlahjAO 1lqlaA4 1fs7A2 
lfua00 lg&8tB0 ”1lqhkA0 luag02 1lacc01 1d0cA1 1lqmmAl 1lg71A1l 
lcxsA2 1cl8A0 1di6AO 1ldxrH2 1lrlr04 lb7eAl1 1kssA1l lospO3 
2cy300 1lml02 1rlr03 leulA3 1lytn00 1lbob01 1lfgs01 ladmA2 
1a31A3 lanv02 ImasAO _ 1lhqi00 lgpc00 lueaBl_ luxy0l ldubA1l 
lhtmBO luvA0 1ldhx03 lckmAl 1lbgw05 lo7nAl1 lmnut00 lefyA2 
ludb01 lvsgAl 1f13A2 1theAO  il1glaGl lhbnAl lyppAO  IichmA2 
ldhx02 ladeA3 _ Iilgr0l 1a73A0 = 11tsAO luok02 ~=lordA4 lfokA1 
1def00 lddt01 lgpb01 I1dpe01 16b01 lsoxA2 2cmd02 1co4A0 \ 
4. Few secondary structures 
lbg503  2pspAl 2pgd03 1b35D0 1ljpwDO ledxA0  1fib02 1bct00 
1ba305 letrLO 11d100 lcwxA0  1jjuCO lceeBO IprcH1l lfc2C0 
4mt200 3aahBO 1d0dAO ldevB0 1jj2A3 1l1qojA0 1lcllAl lebdC0 
ltiv00 lolgA0 1kvdAO lcfh00 1jj2B3 . 1lfaeA3 ”2prgC0 2ilk02 
liva00 2bbvD0 “1lhnr00 “1lhykA0 JeyA3 lrdr01 lekcC0 1pnbB0 
1fre00 ltvs00 lcf3A2 ”1lb8xA3 1fqjCO 1qa4A0 ”1laoo00 ljsuC0 . 
2occL0 1kzuAO linp01 1lkekA4 2occM0 1g3jBO 1ld6gA0 1lfgnA3 
2occK0 laml00 I1br6A2 1lkekA7 lckmA3 1lfigM2 lcf4B0 lyge02 
laaf00 law600 2frvA2 licfl0 1qqp40 2occGO 1h7dAO  1f02T0 
2ech00 lgp2G0 lisuAO I1gp8A0  loccJO 1gzi00 2occl0 1fjgNO 
1flel0 lwdcAO IpyaAO 1k5mDO ImdyAO 1lhueA0 E 


说 明 : 附 表 3 中 使 用 的 是 CATH 数据 库 六 字母 代码 
源 自 : http://www.biochem.ucl.ac.uk/bsm/cath/class.html 


附 表 4 BARS 


1. 以 a 螺旋 为 主 
liw0A0 loaiAO 
1e6iA0 laua02 
leo0A0 lefuB1 
ldvkAO lgab00 
1qlaC0 lmu5A2 
lom2A0 lclkAl 
1khdA1l 1j09A4 
1jr3D2 1g8pA2 
1jb0KO 1h72C3 
2cblA1 lgamA2 
1de4C3 1jbOF0O 
irdr03 lgvnAO 
1jalA3 leijA0 
1f5nAl 1i27A0 
1f81A0 loisO1 
1k3yA2 lgvdAO 
lnk4A2 1v54HO 
1m0kA0 1pjr02 
1ldfAO0 laa7A2 
1o2dA2 lerd00 
ljqnAl 1lfpAl 
lwpgA2 lmmsA2 
lepwA2 1jO9A5 
1jb0OA0 1ji8A2 
lg7dA0 1jj2G0 
1lpd7A0 1bob03 
lqoy AO le3pA2 
1lxa02 Ing6A2 
lnogAO la6q02 
1lp7tA4 luzcAO 
ljadAO ldp3A0 
1jb0L0 ldciA2 
lbglA1 1a3qA2 
1fioA0 1jj2V2 
2ilk01 1fleAO 
1lb3A0 lqrvAO 
1dkxA2 1rlr01 


1lvk04 
1jvr00 
1kblA2 
lvpu00 
1dk8A1 
lutg00 
1axn01 
1191A0 
liomA2 
2pvbA0 
1lriAO 
1n3lA2 
Irv1A0 
In5uA1 
lbvp11 
1hqlA0 
5reqB3 
1r8sE1 
1l1qc7A0 
lfkmAl 
lclkA2 
loohAO 
ldekA2 
liioAO 
1ldcl1A2 
1kdxAO 
1lh5wAl 
ldw9A1 
1bjt03 
lanvOl 
lzymA2 
lgkmA1 
lbgvA3 
la8rAl 
1ail00 
1msk02 
lmw9X4 


构 域 同 源 超 族 层 预 测 样本 集 


1df4A0 
lnkd00 
ljoyAO 
ImswD2 
1b0nBO 
lmswD4 
leejA2 
1g6uA0 
1jj2U0 
lezjAl 
lezjA2 
ldowAl 
1fxkAO 
lgaxA5 
1k3eA1 
1k92A3 
lepy02 
1lgo3F2 
lfehA2 
1g8mA1 
lpqlAO 
1gk9A1 
2end00 
1pmi02 
1v54D0 
lae9A0 
1lrss00 
lmw9X2 
1lvk05 
1dxrC1 
2vsgA2 
lguxA0 
1pjr04 
lepo00 
la6m00 
lwer02 
lwer01 


1b4uA0 
1ft5A0 
1e71A2 
lpfvA3 
lmusA3 
1lm8V1 
1c75A0 
lfgjAl 
1i4mA0 
1ltzA0 
1hp800 
lheiA3 
InvvS2 
1b79A0 
liieAO 
1sknPO 
1dj8A0 
lihp02 
1m61A2 
leyvAO 
ljeqA5 
1h9fA0 
leyqAl 
lqqvA0 
1r8sE2 
2dpmA2 
la9xA4 
lqmgA2 
1c05A1 
lgteA2 
le7uA5 
1m0wA3 
1ppP9F0 
ltbaA0 
1du2A0 
1mlqA0 
1h8eD3 


lrykAO 
liw7E0O 
liyrAO 
ImkiA2 
lng6Al 
lo0OwAl1 
InxuAl 
lmilA2 
1pujA2 
ljeyA4 
1150A1 
1jj210 
1jjsA0 
1jj201 
1r8eA2 
1kg2A1 
letoAO 
lceuA0 
1dvoAl 
le5rA2 
leg3A2 
1h31A0 
1h8el0 
1lx8A0 
1jlvAO 
1mz9A0 
lehs00 
1a9100 
2erl00 
2spcA0 
lecmAO 
lmixAl 
llre00 
1r12A1 
IrzhL1 
lm1nB4 
Imc2A0 


lnkzB0 
lezvIO0 
1pp9E1 
1f8vD0 
1fjkAO 
lsvfA0O 
1g2cB0 
lavyAO 
lic2A0 
1j1dBO 
1m71A0 
1ik9A2 
1jy2NO 
ljocAl 
1no4A0 
1a2xB0 
1g1jA0 
ljekAO 
le5wA4 
1dd9A3 
1ez3A0 
2e2aA0 
1lh7cA0 
lchuA3 
1fjgTO 
1hx1BO 
2a3dA0 
1hf8A2 
InafA2 
1m62A0 
1kblA5 
1c5a00 
lgs9A0 
lvls00 
2hmqA0 
lei7A0 
1m56C2 
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lmtyG1 1c3cA3 
lgnlAl 1i19A5 
loaoA3 lon2A2 
lfs7A1 limxA0O 
1lfpoA2 1lbu01 
lmtyG2 1fk5A0 
1jw2A0 1bea00 
1fs1A0 1a31A4 
lib2A0 lislA1 
lqsaAl 1m15A1 
1hz4A0 lcmbAO 
ln0qA0 1nk4A4 
lbpoA2 1ci4A0 
1v54E0 1ji7A0 
lepuA3 1c20A0 
lhs6A3 1go3F 1 
1qnf02 led1A0 
lelkAO -lbpyAl 
11d8A0 1n62A2 
1ho8A2 1f44A2 
115jA1 liipA2 
loxjA2 lm6yA2 
1h2vC1 laf701 
1k8kGO 1lvk03 
1kpsBO 1qq5A2 
lpprM1 1kgqA1l 
1kwfA0 1dk8A2 
InlbA1 2trcP2 
lgxmAO lbvp13 
1d12A0 1qazA0 
2. 以 6 BAT 
1h8pA1 lamuA3 
1bx700 lmtpA2 
1g1tA2 4ubpC1 
lextAl lnteA0 
1lml103 3ezmA0 
1f94A0 lospO1 
1c2aAl 1mkcA0 
lelvA3 1d09B2 
1jsdA2 1bkb01 
1lpbAO 1g2bA0 
lmkkAO 1dj7BO 


ladeA2 
1kg2A2 
2tct02 
1m9xC0 
1u4gA2 
1rlr02 
lcipA2 
1d5tAl 
1bkrAO 
lgwuA2 
1p80A2 
1tfe02 
1el6A1 
lezvHO 
1dtoAl 
lsesA1 
1g4yBO 
1h8eG1 
1m56B1 
lnh2B0 
1fpoA1l 
1vib00 
lixmA1 
lhwxAl 
1gk9A2 
1cxzB0 
1bha00 
1grj01 
lnh2D1 
ln7oA2 


ljiwIO 
1whi00 
loxdAO 
2por00 
1la0sPO 
1lgweA0O 
1jb7B0 
2sli03 
lbefA1 
1h8eD1 
1lpqhAO 
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IrdqE1 
lgwuAl 
31zt00 
lugpB1 
1jboA0 
1colAO 
1f01A2 
labv00 
1lw9A0 
1bgf00 
lcy5A0 
ljqiAl 
1tx4A0 
1kp8A1 
lfcyA0 
1b25A2 
lah700 
1gqnf03 
liomA1 
5csmA0 
1b25A3 
luby00 
1sig00 
1vns02 
lnlbA2 
1mxrA0O 
1jfbAO 
1d2vC0 
lubkLO 


1k5nA2 
1f8nA1 
1qhvAO 
1svb01 
lrqwA0 
lnxmAO0 
1dmhA0 
1gff10 
lvpsAO 
1khxA0 
1lb6A0 


1j09A2 
1tw6A0 
1f6vA0 
110iA0 
lirqAO 
1bmtAl 
1fr2A0 
1a8000 
liugA1 
1jj202 
1qsaA2 
1jhgAO 
1js8A1 
16vpA0 
1tbbAO 
ImswD1 
ldaqAO 
le3aA2 
IqhdA2 
luvjA4 
luzeA2 
lrlhA2 
1u0eA3 
1gk9B3 
1q79A3 
le3mA3 
1gx5A3 
1i5jA0 
1g8qA0 


1lm8V2 
lejfAO 
lacc04 
1h6fA0 
le2wAl 
1lg4mA1 
1f0011 
lkyfAl 
1p5vA2 
1f00I2 
1n12A0 


laa7A1 
1e85A0 
1is2A3 
lqgiA2 
lefyAl 
lvns01 
2lisAO 
1i5pA2 
1gw300 
laq5A0 
lgdtA2 
lfzcA0 
lafoA0 
lhgvAO 
lvpc00 
lpp9D1 
1n7sA0 
lavoA0 
lew5A0 
1dp5B0 
lbyyA0 
1m56D0 
lezqA0 
ljcdA0 
1tiiCO 
lezvGO 
lbe3K0 
1pfA0 
1ltsCO 


lsdwAl 
lig0A2 


lodmAO 


InlqAO 
1loh4A0 


lgwmA0 


ljopAO 
lnqjA0 
1f35A0 
1g6gA0 
1c3gA1l 


续 表 


1ls1A1 
3fapBO 
2a0b00 
lavoBO 
1c17M0 
ldowA2 
1flmAO 
lhe1A0 
lh6gA2 
InzeAO 
1jr8A0 
113pA0 
103uA0 
lgkzA2 
1h8eA3 
1qjaA0 
1gkmA2 
1v54A0 
1082A0 
1f8nA5 
1cii01 
1a5t03 
1pp9C0 
lhbnA3 
lfgjA2 
labz00 
InvvS1 
116eA0 
1ldbhA1 


-1h61A0 


1pjxA0 
1k32A1l 
lofzA0 
lfwxAl 
Ial2A0 
1k3iA2 
lutcAO 
1h2wA2 
1g72A0 
1qksA2 
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续 表 

JJjhfAl lvie00 liw7D4 1In7oA3 1d5rA2 1k3wAl 1k7iAl 
1a7i00 1lvk01 1nl0A1 1leq3A0 1h8lA2 1ni5A4 lqreAO 
4ubpB0 1fx7A3 1qb5D0 1p35A0 ldceA2 Inc7A0 110sA0 
1kmxA0 1kq1A0 lafp00 lwkt00 1d20A1 lnwbA0 1k5cA0 
lbe3I0 lmlfA0 1c4qA0 1bhu00 1e42A1 1js8A2 1lqql AO 
ligrA2 1bco02 2sns00 lokOAO 1i31A1 lgwy AO ldbgAO 
lexkAO lmhnAO loxxK3 2hft01 1hx0A2 1p2zA4 lezgAO 
lep3B3 ligqAO 3chbD0 lgtfA0 1i82A0 4htcI0 lofeB4 
ljhbnA2 1khcA1l 1jb3A0 lo6sBO lim3D0 lmw9X3 1hf2A2 
lgoiA2 1m9sA3 1c90A0 luowA0 1d7bA0 leuwA0 layl02 
lmvfDO lib8A2 liw7C6 1f86A0 llyqAO 1kmtAO 1p2zAl1 
lahl00 1lplAO 1x8pA0 lmfmAO lgyvA0O lgpr00 lois02 
1n2fAl 1jj2S0 lluqAO 1noa00 1lmiAO 1jz7A5 11kt AO 
Irkd01 1qs1Al lei5A2 lc7sAl 116pA0 lgpiAO lpreA3 
1rb900 luscAO lpbyAl 1jz7A2 lifrAO lgp0AO0 lgppAO 
lospO2 1gk9B2 lqjpAO la3qA3 1075A3 lwpgAl 4dpvZ0 
ImknAO liq8A4 1k3bA0 lsvb04 1n67A1 1f31A2 1g9mGO 
1i5hW0 linlA2 lkmoA2 1p5vA1 1n67A2 luw6A0 lbdfA2 
lqf8A2 liw7C4 1h8eA1 4kbpA1 1075A2 InjhAO lkmoA1 
1jj2YO 1fjrAl 1qd6C0 lsfdA0 1p5vB0 liw7D3 ldqcA0 
lpfvAl 1jjdA0 1dfuP0 1sluA0 1kzqA1l 1lnzAl lhxrA0O 
lnh2C0 1jj2T0 1h9dBO lbglA2 lmkfAl lpu5A0 1g9gA2 
ldkgA2 lpq7Al1 lqwzAO 1g4mA2 ImkfA2 1jmaA0 1lp7tA2 
lauuAO lalx00 liw7C1 lsoxA3 lqqp10 ltul00 1fjrA2 
ljubA2 1i71A0 1p6vA0 1b4rA0 1dg6A0 1siiA3 1g8lA3 
1g3p01 1lkrhA2 ljeyA2 laohAO 1qhdAl lrg8A0 1dtoA2 
lungAO 1e43A2 1c5eA0 layoAO 1h4gA0 1b2pA0 1ik9A1 
lcOmA2 1e0tA3 4bcl00 1f01A3 lnls00 lciy02 1a8h02 
lpcfA0 1bd0A2 1jk4A0 1g87A2 1a34A0 lvmoA0 1b12A2 
IqldAO 2eng06 1v54F0 leaqAO 1pgs01 louwA0 1jbiAO 
1g31A0 1lpfbAO 1h8eHO 1dqiAO lacc02 1jm1A0 

1lm104 loewAl 1h4aX1 lamx00 lod3A0 1hxn00 

1qz5A2 lawqA0 2bbkL0 lwho00 2arcA0 1t12A0 

lqntAl lis2A2 1ldkxA1 lnepAO InziAl 3sil00 

3. oa- 有 结构 

lacc01 lmml01 lvfyA0 lmpgAl lnrwA2 1bfd02 lhfeL3 
1rlr04 ligd00 1n62C1 lkyfA2 InynAO lamuAl lvsrA0 
llyvAO lfmtA2 1kvdBO lm3qA1 1lfpA2 1008A1 lqhkAO 
lgpc00 1g9zA0 IxvaAl 1p5dX4 lgtdAO 1fiuAO 1di6AO 
1bjt05 1lbcpB1 1dszA0 1qmhA2 lmopA2 1g7sA3 leq6A0 
ljsdA1 litxA2 lecrA2 lqgiAl 1j8bA0 lerzAl lcbf01 
1s5dA0 1qddA0 1b7yB1 lsvb03 lfjgP0 1jr2Al ltdj03 
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续 表 
1jc9A1 ljetA3 1q9bA0 1kkoA1 1cliAl lo4wA0 1khdA2 
1g38A2 ljatAO lefnBO 1mxtA2 lopd00 lc8bA0 1iu8A0 
IdciAl 1mj4A0 lkgdA2 lpreA2 lejgAO lem8A0 1i112A0 
lefyA2 lvh5A0 lyua01 laop01 lofuA2 1j23A0 1c3pA0 
lgxyA0 1ldy5A0 lvcc00 lexqA0 lpxwA0 lfyxA0O lekjAO 
2fokA1 lok7A1 lsvb02 1kpf00 lufyAO leexBO 1c96A2 
1rlr03 1u4gA1 liqzAO 1gd0A0 liv3A0 1kjnAO looyA1l 
1hozA0 lnkiA0 ltig00 1kptAO lbdfA1l ImgpAl IcjyA2 
layl03 1msk01 lqmeA3 InwzA0 1dtjAO 1lo0uA2 lhynPO 
4uagA3 llugAO 1bal102 loacAl 1lvhho0o 1t15A1 lwpgA3 
1p2zA3 1by200 1poiA2 1q79A2 1ctf00 ljeyAl 1jj2L0 
1vjjA2 1bm800 1qf6A3 1n62C3 1f46A0 1150A2 liugA2 
1fjjAO 1r4uA0 1lb7yB4 1i2kA1 1jg5A0 1fuiAl 1qhlAO 
lapjoo 1n62A1 1ptq00 1b66A0 1ji8A1 lgopB1 1e19A0 
1aol00 lhtoA2 1lr0rI0 1mtpAl 1jj2B2 1k7cA0 le3mA1 
lavqAO 1tif00 1i3jA2 1c96A1 1iq4A0 lo7jAl luehAO — 
lugpAO logwAO lcqmA0 1k5nA1l ljtgB1 1d40A0 4uagA2 
1d0cA1 ”1lacc03 1scjBO ilkkAO ljyaAO 1e58A0 1j9j}A0 
lmusA2 3seb02 lcc8A0 3grs03 1jb0D0 16pk01 lihnAO 
1bob01 2sak00 1Inh8A3 1n62C2 1k0rA4 16pk02 111sA0 
1br901 1bmlC3 1d09B1 1qz5A1 lseiA2 1vl1A0 1o6dA0 
lo7nAl 114dB0 Inpk00 1dt9A2 1dk0AO lduvG1 1r9wAO 
1hbnAl lip9A0 lgk8A1l 1fjgKO lusmA0O 1g8mA4 ldzfAl 
luok02 Img4A0 1n0uA6 1e4fT3 11l0wA3 2rslAO 1t0fA1 
lsoxA2 loeyJO 1mla01 1jj2MO 1b4bA0 1dozA1l 1a79A2 
1co4A0 1n6zA0 11k5A2 le3mA2 1bjt04 lofuAl 1bx4A1 
1d0cA2 3eipA0 1gx5A2 1p90A0 liba00 lcfzA0 . 112mA0 
1g3p02 1grj02 113kA1 119vA2 1f7uA3 lgqtnAO 1dd9A2 
1dj7A0 1bkf00 laye01 3nul00 1j98A0 2pthoO0 1dmgAO 
1i4jA0 1lml01 lcg2A2 1f5mA0 1f0xA4 ' 1i4A1 1h8eG2 
1hbnC0 1p32A0 1nk4A3 lifqAO lseiAl 1b80A0 le8cA1 
1p2zA3 1dm9A0 1lb7yB6 lnrjA0 1lvk06 lex1A2 ~ lolxA0O 
lvjjA2 lewnAO 1b3tA0 1h3qA0 1mszA0 lm0wA4 le0tA1l 
1fjjA0 lgqzAl leayCO 1131A1 1bxyA0 117dA2 1ko7A1 
lapjoo luvqA1l 1dqaA3 1g60A1 1k8kD1 lhfeL1 1bhtAl 
1aol00 1qcsA2 1kp6A0 lotgA0 1kjqA2 1f8yA0 1fx2A0 
lavqAO lqlimA1 lhbnA2 1i19A1 1bjt01 1g66A0 1kid00 
lugpAO le0gA0 lftrAl 1kjqA3 lgyfAO 1jfiAl lecrAl 
1d0cA1 1fd3A0 1f9yA0 lfviA3 lm0wA5 Imv8A3 libvBO 
lmusA2 1e53A0 1dj0A2 ltfe01 lfviAl lepuA4 1kblA3 
1bob01 1e44B0 1q79Al 1d5tA2 2hgsA1 lvimAO 1b7yB3 
1br901 loqjAO 1fjgJO licxAO 1i50A4 lmvlA0 1mxtAl 


附 表 4 蛋白质 结构 域 同 源 超 族 层 预测 样本 集 .有 
续 表 
”1lo7nAl ljhdA2 1i19A2 1lvk02 1jx4A4 lo2dAl1 leyqA2 
lhbnAl leg7A3 lekrAO lkalAl 1e4fT1 lmlnAl 1jkeA0 
luok02 lqynAO lregX0 Inm8A2 ldiv01 1fgB1 1a9xB1 
lsoxA2 ldiv02 1djOA1 lgpeA3 ladn00 ljg7Al 1de4C2 
1co4A0 1jj2W0 1qd1A2 luylAO 1m4jA0 lfsgAO 1vi4A0 
1d0cA2 lmolA0 1f3vA0 lqqqA0 1m2dA0 lgnlA3 1j5uAl 
1g3p02 lugiAO lgmuAl 1m15A2 lqnxA0 lepuAl 1d15A2 
1dj7A0 1lniAO 1h72C2 lqveAO lnrzA0 1jbeAO 1b25A1 
1i4jA0 1siiAl 1kr4A0 1t1dAO lox0A1 1dz3A0 lako00 
1f8mA0 lohOAO 1kn6A0 191400 1kjqAl 1mx3Al1 1mqoA0 
1gh9A0 1f8nA4 1in0A1 lgccA0 lohtA0 1qczA0 1gk9B1 
lepuA2 leejAl ln0uA4 lcmiA0 1dclA1l 1h05A0 luteAO 
1pfo01 1jj220 1kkhA2 1h4xA0 1nox00 leiwA0 la6q01 
lhyoA2 liq8A3 1lq9A0 118bA0 1p5dX1 lusgAl 2pvaA0 
1k4iA0 1054A1 lilgA2 1dlrA0 1p6oA0 1dfmAO 1b65A0 
1k2fA2 lewfAl 1lxjAO lbolA1l lixh01 1m0dA0 1jl0A0 
luvjAl lewfA2 1mlgAl 1bolA2 lcldAl 1g8mA2 1hq0A0 
lfs7A2 1i2kA2 livzAO 1lpp9A1 lcby00 1kalA2 1uf5A0 
1g71Al 1fuiA3 1nxiAO lixmA2 3pviAO 1ni9A2 lilqAO 
lospO3 liedAO 1lfpA3 lfc6A1 llam01 1gmxA0 lhp1A1 
1i50F0 1c96A4 ludvAO 1k32A4 lojrAO 1fuiA2 1g6sA1 
lv7rA0O 1lbd0A1 lhe7A3 1fjgSO leulA2 1004A2 lqmhA1 
1dbuA0 1h7bA0 1di2A0 lvOwAl1 1lpn0A2 lchmAl 1iz5A0 
lccwB2 ljyhAO 1lpuc00 1d9nA0 1m3kA2 1lmla02 1g61A0 
1ldd9A1 1c8zA0 1gk8I0 igo4A0 107jA2 lezaN2 lio0A0 
1022A0 1d8hA0 IrdqE2 1lghhAO 1krhA3 1c7kAO ligrAl 
lmzgAO leyeAO lbpyA4 lew4A0 Ilmw9X1 lnlnA0 1j0pAO 
liq8A2 llucAO lnz0A0 levlA1 1fp2A1 luq5A1 1a31A3 
1gd8A0 loc7A0 lorc00 lcbf02 1jkxA0 1kmvA0O 1jsdBO 
1rl6Al 1s2wA0O 1u94A2 1dt9A1 1chd00 ladeAl 1i24A2 
ldzfA2 1n55A0 1kp8A2 1qf6A2 lgci00 layl01 1p2zA2 
1ni5A3 lilwAO 4ubpA0 1qd1Al 1c4kA1 1e8gA3 llm4A0 
liw7D2 lus0A0 lgpmA3 le7uA4 10i7A2 4eugA0 IrzhH2 
116rA2 1r5yA0 1cii02 1lprxA2 1jf8A0 laua0l leulA3 
liw7C2 1gk8A2 1e42A2 lqlmA2 lccwA0 luch00 lckv00 
liw7C3 1kkoA2 InoyAl 1dtdBO 1byi00 1g8tA0 IckmA1 
liw7D1 lhzyAO 2sicl0 1pz4A0 loboAO 1d02A0 1lme3A0 
1jh6A0 lmuwA0 1lc0A2 InwaA0 1mf7A0 1sx5A0 1a73A0 
1lc5A1 lolzA0 1n62B2 levOAO 1pfkAl 1004A1 ljetA2 
lel6A3 1r3sA0 lay7BO 1bx4A2 lpfkA2 ldmuAO luxy01 
1jj2HO 1v93A0 ljakA2 lhdhA2 1pdo00 IrtqA0 1lhztA0 
1j3aA0 lreqAl 1lmsc00 1pfo02 lkqpAO 1lc5A2 1i40A0 
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续 表 
lnd4A0 lccwB1 lgtkA3 1dhn00 1bjt02 1m40A0 1c4kA4 
lucsAO lex1Al1 1llmC1 1fjgC2 lubkS1 lhqsAO 1t2dA2 
le8pA0 11t8A0 lmgtAl ltolA2 llqtAl lhdhAl 1g55A1 
1d0cA3 leexA0 1bbg00 ldw9A2 leulAl 1d3vA0 1lml02 
lgpoAl 1h16A0 1dq3A2 lgaxA4 1i2aA2 1poiBO 1dkgAl 
1brwAl lc0pPA2 1i2aAl 1mgpA3 levlA2 1b4uBO lanv02 
1fm0E0O lcseI0 ljosA0 lnr3A0 lnf9A0 1f9vA0 2vsgAl 
1n62B1 1dxjA2 lamuA4 1jrmAO 1p5fA0 1rlzAO ladeA3 
1jj2K2 1d5tA3 3proCl lnijA2 lvirB1 1lkekA3 likpA3 

laho00 1ib8A1 1g2rA0 lhqkAO la3aA0 1n8kA1 
4. Few secondary structures 
1bg503 lckmA3 2bbvD0 1f8nA2 lubkS2 lewxA0 1g9gA3 
1ba305 1qqp40 1tvs00 1j8eA0 liuaAO ldevBO 1lrdr01 
4mt200 1v54J0 lnkzA0 1g6xA0 libvAO 1j34C0 1qa4A0 
1jfwAO 1h7dA0 laml00 1kvdAO 1b8zA0 lhykAO 1g3jBO 
lagg00 lv54I0 law600 1i40C0 ljc9A2 1b8xA3 1fjgM2 
1fre00 1v54G0 1gotGO 1a92A0 lrzhH1 1lkekA4 1jpwD0 
1v54L0 “2pspA1 lwdcA0 lhfeSO 1cl1A1 1kekA7 1pbyC0 
1v54K0 1h59BO InkpAO lioj00 2prgC0 licfI0 1jj2A3 
laltAO lhy9A0 1bct00 loe9A6 1g1xC0 lgp8A0 1jj2B3 
1j21A0 1jo6A0 lebdCO 1hnr00 laoo00 1f02T0 ljeyA3 
1fleIO ljouAO 2i1k02 lgpeA2 1d6gA0 1fjgNO 1fqjC0 
laym40 1g72B0 1jsuCO linp01 lcf4B0 ledxA0 1jj2K1 
1v54M0 lolgAO 1f8nA3 luq5A2 - 1b35D0 1qojA0 


说 明 : 附 表 4 中 使 用 的 是 CATH 数据 库 六 字母 代码 
源 自 : http://www.biochem.ucl.ac.uk/bsmy/cath/class.html 


附 表 5 蛋白质 结构 域 序列 家 族 层 样本 集 


1. 以 a 螺旋 为 主 
loaiAO 1ji8A2 
lcuk03 1jj2G0 
1a5t02 1bob03 
1g41A2 le3pA2 
1e94E2 Ing6A2 
lim2A2 la6q02 
lbvsA3 luzcA0 
1g4aE2 1dp3A0 
lkyiS2 ldciA2 
lixsAO lef8A1 
1g3iW2 lmj3A2 
ldv0A0 la3qA2 
lifyAO InfkA2 
lotrA0 1jj2V2 
laua02 1fleAO 
lefuB1 1b67A0 
lgab00 lnljA0 
lmu5A2 1n1jBO 
1fjgM1 ltzyA0 
lclkAl 1ltzyB0 
1in4A3 ltzyC0 
lnvmA2 ltzyD0 
1d2nA2 1kx5A0 
lfnnAl 1kx5DO 
InjgB1 ltafA0 
1r6bX3 ltafBO 
1r6bX5 1h30B0 
lg41A3 1m19B0 
1jr3D3 leqzDO 
liqpA2 1bh9A0 
1e32A4 1bh9BO 
ljqjD3 1jfiAO 
1j09A4 1jfiBo 
1g8pA2 1lqrvA0 
le9rA2 lcktA0 
1h72C3 lgt0D0 
lqamA2 leg7A0 


1lg4yR2 
1m45A1 
1m45A2 
1k94A0 
1k9uA0 
ltop02 
lahr00 
lalvAO 
1g8iA2 
lmr8A0 
le8aA0 
lsra00 
lwdcB1 
lwdcB2 
lwdcCl 
2scpA0 
loe9B1 
lauiBO 
luhnAO 
2cblA2 
1dtlA2 
la4pA0 
1bg1A3 
1djxAl 
1djxB1 
1hqvA0 
2sas00 
1k90E1 
1ij5A3 
1s26D1 
1c07A0 
ldguA0O 
leh200 
1fi5A0 
1fi6 AO 
1h8bA0 
1j7qA0 


2tct02 
1jt6A2 
1m9xCO0 
lem9A0 
1p7nA0 
leia01 
1g03A0 
1u4gA2 
1lkeiA2 
1trlAO 
1rlr02 
lcipA2 
lazsC2 
1d5tAl 
1f8rA3 
lvg0A3 
lbkrA0 
1pa7A0 
1bhdA0 
lsh5A1l 
1aoa01 
laoa02 
1h67A0 
1v5kA0 
lgwuA2 
loafA2 
ljdrA2 
llycA2 
litkA2 
1p80A2 
1pqlA0 
lohuAO 
1bxlAO 
lddbAO 
1f16A0 
1k3kA0 
11xl00 


lie9AO 
1t7rA0 
lnq7A0 
1g2nA0 
loshAO 
lqkmAO 
1fm6D0 
lpq9A0 
1pzlAO 
1s9pA0 
1n46A0 
lovlAO 
1pk5A0 
1r1kD0 
1b25A2 
laorA2 
lah700 
1ak000 
leal01 
1qnf03 
liomA1 
lcsh01 
1k3pA2 
lo7xAl 
5csmA0 
1b25A3 
laorA3 
luby00 
1sig00 
lvns02 
1qi9A0 
lup8A0 
InlbA2 
lezfAO 
5eau02 
lkiyAO 
1dilAO 


1jj202 
lirgAO 
2cpgA0 
lbazA0O 
lmntA0 
1lbmtA1 
lqsaA2 
ljhgAO 
1js8A1 
1bt3A0 
16vpA0 
1tbbAO 
lmswD1 
1daqA0 
le3aA2 
lghdA2 
luvjA4 
luzeA2 
liliP3 
1j36A2 
1lrlhA2 
1u0eA3 
1gk9B3 
1fm2B2 
1q79A3 
le3mA3 
1gx5A3 
1i5jA0 
1g8qA0 
lrykAO 
liw7E0 
liyrAO 
lkoyAO 
1ImkiA2 
lng6A1l 
lo0wA1l 
jjfzA0 


lquuA2 
1g8xA6 
1g8xA7 
lhciAl 
lhciA4 
lez3A0 
1g73A0 
lhs7A0 
2e2aA0 
1h7cA0 
1lrzA3 
lqsdAO 
lchuA3 
1qlaA3 
lnekA3 
1kf6A3 
1fjgTO 
1hx1B0 
2a3dA0 
1hf8A2 
InafA2 
1m62A0 
lecmAO 
1mixA1l 
1h4rA2 
1hb6A0 
lhbkAO 
1lgg3A3 
1kblA5 
1lre00 
1r12A1 
IrzhL1 
IrzhL2 
IrzhM1 
1rzhM2 
119bM1 
lmlnB4 


lbglA1 
1fioA0 
1dn1BO 
1nk4A2 
1x9mA2 
1kfd02 
1m0kA0 
1c8rA0 
1e12A0 
1h2sA0 
119hAO 
1ldfAO 
1j4nA0 
lrc2A0 
1o2dA2 
1jq5A2 
1sg6A2 
lujnA2 
ljqnAl 
lwpgA2 
lepwA2 
1jb0A0 
1g7dA0 
1e91A0 
lgoyAO 
1lxa02 
lnogAO 
lnigA0 
1pP7tA4 
ljadAO 
1jbOLO0 
2ilk01 
1bgc00 
lalu00 
leerAO 
1m48A0 
lnlfA0 
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1i4wA2 1k99A0 ljbaAl 1q59A0 lpsl1A0 InxuAl 1mioB3 1d9cA0 
1jbOFO 118yA0 1jfjAl lgk9Al1 lmxrA0 ”lmilA2 lmc2A0 1lhuw00 
lgvnAO 2lefA0 1jfjA2 1fm2A0 lmtyB0 lpujA2 1g4iA0 11ki00 
leijAO 1lrlr01 1jfkA2 1lkehA2 1mtyD0 ljeyA4 lle6A0 1m4rA0 
1i27A0 1c3cA3 InyaAO 2end00 1lkgnAO ljeyB4 1poc00 1hziA0 
1fp2A2 lfurA3 1qjtA0 1pmi02 1h0oA0 1150A1 laa7Al 1b5100 
1ldp7P0 1k7wA3 loohAO 1v54D0 lafrAO 1j33A1 1c5a00 laulA0 
1hwlAl 1ldofA3 low4A0 lae9A0 1jfbAO 1jj210 1e85A0 leteAO 
lkgsA2 1q5nA3 1r5rA0 1f44A1 1n40A0 1h8el0 256bA0 levsA0 
lgvjA0 1j3uA3 1dqeA0 1a0p02 lio7A0 1jjsAO 2ccyA0 lscfA0 
1b6a02 ljswA3 1c3yA0 laihAO 1qmqA0 1jj2O1 lcpq00 1f6fA0 
1in4A2 1i19A5 1dekA2 1floA2 1po5A0 1r8eA2 lmqvAO 1ax800 
lon2A1 le8gA4 liioAO 1rss00 1bu7A0 1r8dA0 1bbhAO lent10 
1131A2 lon2A2 1ldc1A2 liqvAO 1lfkAO 11x8A0 1s05A0 lhulAO 
lrltA0 1fx7A2 1lriAO lmw9X2 1n97A0 1lpm6A0 1lgs9A0 lilrBO 
1b9mA1 1lddnA2 1n3lA2 1i7dA2 lodoAO 1kg2A1 laep00 2gmfA0 
lxgsA2 limxAO 1i6mA2 1gkuB6 1q5dA0 lornA2 1vls00 11qsL1 
3htsB0 1zeiA0 1h3fA2 1lvk05 1u13A0 lmpgA3 2hmqA0 1f45B0 
1jhfA2 3lriA0 1jilA2 1lkxA4 lizoAO 1m3qA2 1ei7A0 lga3A0 
1ku3A0 1lbu01 Irv1A0 1dxrCl lcpt00 1keaA1l lcgmE0 1jli00 
lmgtA2 116jA1 lycqAO 1dxrC2 1d2vC0 letoA0 1m56C2 1lb3A0 
lhw5A2 1fk5A0 ln5uA1l 2vsgA2 1q4gA2 1fipAO 1fftCo 1o9rA0 
1j75A0 lhyp00 1n5uA2 lvsgA2 lubkLO lntcA0 1ls1A1 1jigAO 
1t0fA2 116hA0 1n5uA3 1lguxA0 lcclL0 lceuA0 1j8mF1 1lkoA1 
1lbc8C0 1bea00 1n5uA4 1guxB0 1b4uA0 ldvoAl 1ftsO1 lnfvA0 
lopc00 lhssAO 1n5uA5 lhirB1 1ft5A0 le5rA2 3fapBO leumAO 
1bm9A0 1a31A4 ln5uA6 1hlrB2 le71A2 leg3A2 2a0b00 1ji4A0 
1d3yA1l lislAl 1lkxpD1 laisB1 1a6201 1h3l1A0 1c02A0 ljgcAO 
1fc3A0 1dd5A1 1kxpD2 laisB2 ljeqA5 1jlvAO 1i5nA0 1ldkxA2 
1fnnA3 1m15A1 1lkxpD3 1f5qB1 1h9fA0 118gA3 lavoBO lgnlAl 
1fx7Al lqh4A1  1kxpD4 _ 1f5qB2 lpfvA3 lmz9A0 lcl7M0 1lgnlA2 
lfy7A1l lcmbA0 1kxpD5 1jkw01 1a8h03 ldebA0 ldowA2 -loaoA3 
1gxqA0 lnk4A4 1kdxAO 1jkw02 1h3nA4 1gw300 1qkrA0 lfs7A1l 
1lddAO 1jx4A3 lh5wAl 1c9bA1 1f7uA2 laq5A0 1lh6gA1 loahA2 
lfseA0 lcuk02 1bvpl1 1c9bA2 lffyA3 lgdtA2 1flmAO lmtyG1 
1q06A0 1a7602 1hqlA0 1h41D0 liq0A3 lfzcA0 lhel AO lfpoA2 
1pueE0 1tfr02 1dulAO 1g3nCl1 lileO1 lfzcB3 lhy5A0 lmtyG2 
lqbjAO ImswD5 1lqb2A0 1g3nC2 lgaxA2 lfzcC3 1h6gA2 1jw2A0 
lsfe02 1x9mA4. 1ldw9Al lbu2A2 1musA3 lfzgD0 lnzeA0 lfs1A0 
1je8A0 lbpyA2 1llmb30 lugpB1l llm8V1 ”lmljA0 1ljr8A0 lnexB1 
llvaAl 1lbgxT2 1b0nAO0 2ahjB1 1c75A0 1m1jB3 logqcAO 1ldkE0 
llvaA2 ljmsA2  e30Cl _Ipjr04 lctj00 lmljC3 113pA0 lib2A0 
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llvaA3 lexnAl 1lr6900 IqhhCO 1li8oA0 llt9E3 lnlxA0 1ljdhA0- 
llvaA4 lhjp02 1jftAl luaaA4 1gu2A0 11t9F3 103uA0 lee4 AO 
1lbjaAO liw7D5 ladr00 lepo00 1e29A0 llwuA0 1k04A2 loyzAO 
1a04A2 ldgsA5 lneq00 1a6m00 1ycc00 llwuB3 ljogA0 1b3uA0 
lixcAl ldgsA6 luxc00 1h97A0 1m70A1 llwuC3 lknyA2 librBO 
lkyzAl lbvsA2 1bjt03 lirdAO 1m70A2 lafoAO lis2A3 lqgrAO 
lmkmA1 11b2B0 1lbgw03 lirdBO 1c5200 lhgvAO lis2A4 1lrv00 
2irfGO 1b22A0 lab403 leca00 lqksA1 1ifi00 1jqiA3 1ho8A1 
1k78A1 1doqA0 lanv01 1jf3A0 1ql3A0 lvpc00 livhA3 1qbkB0 
1k78A2 1kftA0O lzymA2 3sdhA0 1h32A2 lpp9D1 1lgkzA2 lqsaAl 
1qo0D2 1ci4A0 lgkmA1 1b0b00 1h32B0 1n7sA0 1jm6A2 1hz4A0 
1bia01 1ji7AO 1c3cA1 1kr7A0 1exc00 1n7sBO lqgiA2 1Ina3A0 
lhsjA3 1kw4A0 lfurAl 1qlfA0 351c00 ln7sC0 lchkAl lelwA0 
ljgsAl loxjAl lk7wA1 ldlwA0 liqcAl ln7sD0 _—ilefyA1 1hxiA0 
2fokA2 1b4fA0 1ldofA2 lcg5A0 liqcA2 1gl2A0 1gs0A1 lna0A0 
1lb4aA1l 1dxsA0 1g5nAl lcg5B0 ldw0A0 1gl2CO lvns01 1hh8A0 
lo7fA2 lbqv00 1lbgvA3 lit2A0 1lpp9D2 1lgl2D0 1d2tA0 1lihgA2 
6paxA2 luqvAO la8rAl 1mba00 lhloAl 1jthBO 2lisAO lelrAO 
1cf7A0 1c20A0 lis8A1 1s69A0 1hloA2 lnhlA0 lgakAO 1klxA0 
lcf7B0 lig6A0 1tfe02 1gdjoo InirAl lsfcD0 1h8eA3 InznAO 
1ft9A2 IkkxAO —1el6A1 lcqxA1  1mg2D0  114aA0 li5pA2 lfchA0 
lhstAO 1go3F1 1ail00 lew6A0 leb7A1 114aBO lciy01 1a1700 
liw7F3 1d8bA0 1a3200 IngkAO 1cc500 lavoA0 lqjaAO 1b89A0 
lrepCl1 led1AO 1d2dA0 lash0O 1diiCO lew5A0 lgkmA2 1kt0A3 
lrepC2 lhekAO lezvHO 1hlb00 lfedC1 1dp5B0 1c3cA2 1qqeA0 
lhkqAO 1a6s00 1101HO 1ithAO lfcdC2 lbyyA0 lfurA2 ln0qA0 
1ku9A1 lbpyAl ldtoAl 1jboA0 1dvh00 1m56D0 1k7wA2 ln0rA0 
lomiA3 1jmsAl1 lsesA1 1jboBO lgks00 lezqA0 1q5nA2 1bd800 
lilgAl iInzpAO lserAl 1b8dA0 lfgjAl 1llmC2 1v54A0 1klaAO 
1100C0 1n62A2 1g4yBO 1kn1A0 1i4mA0 1j2jBO lehkAO lot8A0 
1qihAO lvlbA2 1r3jCo lcolAO 1i17A0 1gu4A0 1082A0 luohAO 
1ka8A0 1f44A2 1m56C1 1cii03 2prp00 1piqA0 1f8nA5 lmj0A0 
laoy00 la0p01 2occC1 1f01A2 1ltzA0 1gd2E0 llox01 lsw6A0 
1lbby00 liipA2 1h8eG1 lwer02 1j8uA0 1ljnmAO lcii01 lycsB1 
1d5vA0 Im6yA2 _—1fs0G2 InflAl  1phzAO lgk4A0 1la5t03 liknDO 
1d8jA0 laf701 lohhGO lwer01 1hp800 1ci6AO 1jr3A2 lixvA0 
ldpuAO 1lvk03 1m56B1 lnflA2 lheiA3 1ci6BO 1jr3D2 1bi7BO 
lfshAO loe9A3 2occB1 IrdqE1 InvvS2 1a02F0 1jqjC2 lbpoA2 
1g4dA0 1kk8A3 1fftB1 1gz8A2 1b79A0 lnwqA0 1pp9C0 1v54E0 
1hks00 1lkxA2 lnh2B0 1fmk04 liieAO 1dh3A0 lhbnA3 lepuA3 
liuyAO 1qq5A2 InvpBO 1jksA2 1sknPO lhjbAO lhbnB2 1mqsA4 
1j9iAO lswvA2 lfpoAl 1p4oA2 1dj8A0 lhbwA0O lfgjA2 lhs6A3 
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1p4wA0 1kgqA1l 1nz6A0 Imp8A2 leyqA1l ljunA0 labz00 le7uA3 
1p6rA0 1dk8A2 1bq000 1t46A2 lihp02 ljcdAO 1jbOKO lhe8A3 
luhmAO 1fqiA2 lfafAO lom1A2 1m61A2 1tiiCO InvvS1 1qnf02 
luhwAO0 1htjF1l 1vib00 lia8A2 1a81E2 lezvGO 116eA0 Inp7A2 
loisO1 lomwA2 lixmA1 luu3A1 leyvAO 1101G0 ldbhAl ldnpA2 
lgvdAO lagrE2 lhwxA1 1jlbA2 1q8cA0 lbe3K0 1kilB1 lelkAO 
lgv2A2 2trcP2 1gk9A2 1lmq4A1 ley1A0 1pfiAO 1kz7A1 leyhAO 
lhcrAO 1b9xC2 lajqA2 1csn02 lqqvA0 2ifo00 lfoeAl lujkAO 
le30C2 lbvp13 1cxzB0 1pme02 lujsAO 1ltsCO 1lby1A0 1hf8A1 
lpufAO 1lvk04 lurfAO 1tkiA2 1r8sE2 lnkzB0 1f5xA0 11d8A0 
1pufB0 loe9A4 1bha00 lvjyA2 2dpmA2 1lghBO liw0A0 ldceA1 
2hddAO 1kk8A4 1grj01 1q8yA2 1a9xA4 lezvI0 1j77A0 1ho8A2 
ljggA0 1lbr2A4 lnh2D1 lo6yA2 lqmgA2 lpp9E1 1n45A0 115jA1 
1k61A0 1jvr00 1df4A0 1f3mC2 —ilevyA2 lezvE1 1j02A0 loxjA2 
1mh3A3 1kblA2 1qbzA0 1kobA2 1bg602 1f8vD0 1e6iA0 1h2vCl1 
2tct01 1vpu00 1mof00 InxkA2 1dljA3 1f8vEO leqfAl 1h2vC2 
lignAl 1dk8A1 2eboA0 lgwuAl 1f0yA2 1fjkAO 1jspBO 1h2vC3 
lignA2 lfgiAl lmg1A3 loafAl 1i36A2 lsvfA0 leo0A0 1h6kA1 
lmnmC0 lagrH1 leboAO 1jdrAl 2pgd02 1g2cA0 2cblA1 1hu3A0 
lau7A2 5reqB3 lfavAO llycAl IpgjA2 1g2cBO 1de4C3 1k8kGO0 
1bl0A1 lutg00 1Inkd00 litkA1 1c05A1 lavyAO 1ldvkAO 1kpsB0 
1bl0A2 laxn01 ljoyAO 1itkA3 lgteA2 lavyBO 1qlaC0 lpprM1 
lle8AO laxn02 lmswD2 labv00 lh7wD1 lox3A0 lom2A0 1kwfAO 
1b72A0 laxn03 laroP2 3lzt00 lqlaB2 2pgd03 1rdr03 1h12A0 
ltc3C0 laxn04 1b0nBO 1b90A0 1kf6B2 1aa000 1kbhvA4 1ks8A0 
lhlvAl 1a8a02 lmswD4 153100 le7uA5 1pgjA3 1khdAl lnc5A0 
lhlvA2 1n00A1 leejA2 1qsaA3 lcjaA2 lic2A0 1lbrwA3 layx00 
1lpb6A1 1n00A2 1g6uA0 1ltm02 lm0wA3 1j1dBO 2tpt01 1gai00 
1jt6A1 1n00A3 1jj2U0 1dxjAl 2hgsA3 1j1dE0O 1jalA3 lclc02 
lic8A2 1n00A4 lezjA1 lam7A0 lpp9F0O 1m71A0 1f20A2 1g9gAl1 
1i150J0 1m9iA7 lezjA2 1iizAO lezvF0 1ik9A2 lddgA2 1fp3A0 
llfb00 1lr8sE1 ldowA1 1lw9A0 ltbaA0 1fulA2 1f5nAl1 —11f6A2 
lgdtA3 1kulAl lfxkA0 lbgf00 ldu2A0 ljy2NO 1lfglA0 1h54A2 
1ba500 1lqc7A0 lgaxA5 ley5A0 lmlqA0 1jy200 113eB0 1gxmA0 
lbw500 lfkmAl 1lk3eAl 1d2zA0 1q9iA2 ljy2P0 1lk3yA2 1qqfA0 
lef4A0 lclkA2 1k92A3 1d2zB0 1h8eD3 ljocAl 1kOmA2 11d8B0 
lfexA0 1191A0 lcpy02 3ygsP0 1j09A2 1no4A0 le6bA2 ldceBO 
1ftt00 1n69A0 1go3F2 lalw00 lqtqA3 1a2xB0 loe8A2 2sqcAl 
1g2hA0 1m12A0 lfehA2 1ddf00 1tw6A0 1lp1A0 1b4pA2 2sqcA2 
lirzAO 1nkl00 lg8mA1 ldgnAO 1jd5A0 ldeeGO liyhA2 lhzfAO 
lityAO liomA2 1msk02 le3yA0 1g73C0 4hb100 1jlvA2 1n4qB0 
liufA2 lcsh02 1j6rA2 lichAO 1f3hA0 1g1jAO 1m0uA2 1d12A0 
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104xA2 1a5902 1k7yA4 1n3kA0 1i30E0 ljekAO laqwA2 1kktAO 
2ezh00 1k3pA3 lmw9X4 lngr00 1f6vA0 1fsOE2 ldugA2 In7oA2 
2ezk00 2pvbA0 1i7dA4 3crd00 110iA0 le79H2 1n2aA2 lcb8A1 
1v54HO lexrAl 1lgkuB8 ljqiAl laf800 le5wA4 loyjA2 1jOmA1 
lpjr02 lexrA2 ladeA2 legdAl 1dnyA0 lehs00 leemA2 1qazA0 
luaaA2 lpsrAO liweA2 lbucAl ldv5A0 1a9100 law902 lnlbA1l 
laa7A2 lqv0A0 1kg2A2 livhAl 1klpAO 2erl00 lgnwA2 5eau01 
lerd00 1k8uA0 lornAl 1tx4A0 1fr2A0 1dd9A3 1k0dA2 
llfpAl 1g33A0 lmpgA2 lpbwA0O 1a8000 leqnA3 2gsq02 
1k6yA1 lggzA2 1m3qA3 1f7cA0 leia02 2spcA0 lgwcA2 
lmmsA2 1ig5A0 lkeaA2 1kp8A1 1ld1dA2 lcunAl 1f2eA2 
1j09A5 lomrA1 IngnAO la6dA1 lqrjB2 lcunA2 InhyA2 
lirxA5 lomrA2 1lmzA0 lfcyAO liuqAl lquuAl 1g70A2 
2. 以 6 HBAE 
lmml01 1kwgAl lad201 lpp9B1 lexmA1 1jj2K2 1kqfA3 2pvaA0 
lhar01 lv3hA0 —IrdqE2 lpp9B2 ~—:1f5nA2 1jj2NO 2napA3 —«-:1b65A0 
ligd00 lcnv00 1gz8A1 lezvAl 1f6bA0 les9A0 laa603 1jl0A0 
1pgx00 1jfxAO0 lobdA1 lezvA2 lhtwA0 livnAO lgmxA0 1i7bA0 
1hz6A0 1qhoA1l 1fmk03 lezvB1 1InOwA0 lesc00 lrhsO1 lmhmAO 
ImhhE0 1ta3A0 1jksAl lezvB2 InrjBO lo7jAl Irhs02 1hq0A0 
1c9fA0 th4pA0 ”1lp4oAl lhr6A1 —1qf9A0 1d40A0 —leOcA1 luf5A0 
1d4bA0 ljakAl lfbnAl lhr6A2 IckeAO 1m2kA1 leOcA2 1f89A0 
1f2rI0 1c7sA3 lmp8Al1 lhr6B2 1d2nAl1 lqlaAl 1qb0A0 lemsA1 
1n62A1 lclxA0 1061A2 lfjgS0 lfukA0 1bfd01 lhzmA0 _lilqAO 
lezpAO leokAO 1t46A1 lvOwA1 1i2mA0 1j8fA1 1fuiA2 1k0eA0 
lfm0D0 lfobA0 lom1A1 lvOwA2 le6cA0 lzpdA2 1004A2 1qdlA0 
loqqA0 lnar00 lia8A1 lbyrAO 1g16A0 lefvAl leuhA2 lg6sA1 
lkrhAl lhjxAl luu3A2 1d9nA0 1g5tA0 lpoxA2 1020A3 1g6sA2 
1i7hAO 1ceo00 lopjAl 1qk9A0 1jbkAO lpvdA2 lez0A2 lejdAl 
lfehAl ledt00 1jlbAl1 lublA0 1kjwA2 lovmA2 lad3A2 lejdA2 
layfAO leswA0 1r0pAl 1go4A0 1kk1A1 1e58A0 lchmA1 lqmhA1 
1doi00 liv8A1 lblxA1l lghhAO 114uA0 1h2eA0 1az901 1iz5AO 
2pia03 luwsA0O 1mq4A2 lew4A0 1q0uA0 1bif02 1mla02 lrwzA0 
115pA0 7taa01 lcsn01 lekgAO 1d2mA2 1nd6A0 lezaN2 1plq00 
lqlaB1 laq0AO lia9A1 levlA1 lex7A2 lihp01 lc7kA0 1axcA0 
16qA1l 1bf202 1lpme01 InnhAO lmkyAl 16pk01 leb6A0 1g61A0 
1ni3A2 1j11A1 1lr3cAl 1b8aA2 = ImkyA2__16pk02 1jk3A0 1h70A0 
lqf6A1 1117A1l 1tkiAl 1g5hA1 Inp6A1 1vl1A0 1kufAO 1jdw00 
1f0zA0 luok01 lvjyAl 1l0wA2 1q44A0 1fs5A0 1k7iA2 1g62A0 
1jq4A0 2ebn00 1q8yA1l leloA2 1u94A1 lduvG1 1g12A0 lio0AO 
lrwsA0 lgjwAl lfvrAl 12asA0 lep2A0 lduvG2 liab00 loznA0 
lryjA0 1h09A1l 1j71A1 1bia02 lsvmA3 1ml4A1 IrlhAl logqAO 
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LIhtoA2 1h3gA2 lo6yA1 1h4vB1 1g8fA3 1ml4A2 1lbkcAO 1p9aG0 
ltif00 lnowA2 1phk01 1hc7A1l lgvnBO lothA2 1i11iP2 1d0bA0 
logwAO lua7A1 1pmnAl 1b7yA0 1ko7A2 1g8mA4 1j7nAl la4yA0 
leuvBO legzAO lckiAl 1b7yB5 lnlfA0 1a9xA8 1j7nA4 ldceA3 
lgnuAO 1m7xA2 1f3mC1 lsesA2 4tmkAO 1b93A0 lck7A1 1jl15A0 
1h4rAl 1lpbgAO 1a0601 . latiAl 1j99A0 1c30A8 InlnAO la9nA0 
11m8BO 1c0dA0 lomwA3 leiyAO 1bif01 2rslAO lug5Al1 lyrgAO 
1lclyBO llwjAl 1b6cB1 lcbf02 1dekAl 1dozA1l illnA1l 1folA2 
le7uAl1 1lbhgA3 1m14A1 1dt9A1 1fmjAO 1dozA2 lmrj01 1fs2A0 
loeyAO leh9A1 InxkA1 1qf6A2 1fnnA2 lhrkAl 1qi7A1l 1ds9A0 
1lfdAO lusOAO lbpyA4 1qd1Al1 1g3qA0 lhrkA2 labrAl ligrAl 
1lgg3A2 lgveAO 1jmsA4 le7uA4 lg7sAl lqgoA1 ldm0A1 ligrA3 
1s3sGO 1lqaAO ljajA2 IcjaAl 1h65A0 lqgoA2 1kmvA0O lm6bA1 
1k8rBO 1mi3A0 lnz0A0 1prxA2 1h8eA2 lofuAl 1ra900 1m6bA5 
1a5r00 lhw6A0 1lmg7A2 1qlmA2 1h8eD2 lcfzA0 laoeAO 1j0pA0 
lgjzA0 lexbA0 luekA1l 1dtdBO 1ji0AO 1lqtnA0 1df7A0 lgyoA0 
1h8cA0 lur3M0 1h72C1 lpfo02 1kngAO lpyoA0O ljuvAO lup9A0 
1i142A0 1r5yA0 lpvgA2 1pz4A0 lly1A0 InmsAO 3dfr00 los6AO 
liyfA0 liq8Al 1b63A2 liktA0 lnijAl lsc3A0 ldyr00 lofwAl 
1j0gA0 1gk8A2 1h7sA2 lnwaA0 1puiA0 lnw9B0 lcz3A0 lofwA2 
1j8cA0 5rubA2 1mu5A3 lfvgAO 1lqdeAO 2pth00 1j3kA0 3caoA0 
1m94A0 —lgehA2 10j4Al lev0A0  1g8pAl __ lrybAO lvdrA0 —-.2cy300 
1lplaA0O 1kkoA2 1fi4A1 1bx4A2 lheiAl 1li4A1 ladeAl lczj00 
luh6A0 1lr6wAl 1eilA2 1liiA2 lheiA2 1b80A0 laylO1 lgwsAl 
lacc03 loneA2 1dar04 lhdhA2 ln0uA1l 1vhwAO0 1ii2A1 lgwsA2 
3seb02 1mdl02 1kkhA1 lauk02 lihuA1 1je0A0 le8gA3 lgwsA3 
ldyqA2 lmucA2 1kvkA1l 1fsu02 lihuA2 1lcb0A0 4eugA0 1h29D3 
leu3A1 lec7A2 1k47A1 1p49A3 1a5t01 IrxyA0 1ui0AO0 1h29D4 
let9A1 1tkkA2 1a6f00 1dhn00 1c9kA0 1g20A0 lmugAO 1a31A3 
1m4vA1 1jpdX2 1pkp02 la8rA2 le3mA5 ljysAO loe4A0 1jsdBO 
3tss01 lhzyAO 1fjgI0 1b91A0 1InjgB2 lex1A2 laua0l lhtmBO 
lan801 1rk6A2 lorc00 1fjgC2 1r0wA0 lm0wA4 luch00 1ha0A2 
2sak00 1plmA2 1u94A2 1tolA2 1sq5A0 117dA2 lemxA0 1flcBO 
1bmlC3 4ubpC2 1kp8A2 ldw9A2 lodfAO lpjcAl 1g8tA0 ldkgAl 
114dB0 1m65A0 la6dA2 lgaxA4 1r6bX4 lhfeL1 1d02A0 1i24A2 
1qqrA0 1bf6A0 4ubpA0 lmgpA3 lcr0A0 lfehA4 1cl8A0 le6uA2 
1ip9A0 1j79A0 lgpmA3 lnr3A0 1g41A1l 1f8yA0 1sx5A0 lek6A1 
1mg4A0 1j60A0 1p71A1l 1jrmAO ljwyBO 1g66A0 1azo00 1k6xA2 
loeyJO la4mA0 1p7lA2 1n91A0 InstAO 1mj5A0 lev7Al loc2A2 
1pqsA0 1j5sA1 1p71A3 1nijA2 1dar01 1cex00 1lxhvAO lkewA2 
1qloA0 lmuwA0 1qm4A1l 1g2rA0 1e9rAl 1qj4A0 1dmuAO0 ln7hAl 
1n6zA0 1qtwA0 1xrb02 lnrwA2 legaAl 1qlwA0 1004A1 leq2A2 
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lfmtA2 1d8wA0 1josA0 InynAO 1jj7A2 1b6g00 leuhAl lgy8Al 
1g9zA0 1i60A0 1k0rAl llfpA2 loe0AO lispAO 1020A1 1p2zA2 
1dfaA2 1k77A0 1k0rA2 Imw7A2 1a7j00 1lzlAO la4sAl 11m4A0 
ldfaA3 la0cAO lqwiAO lgtdAO leg7Al 1h2wA1l lez0A1 1g2aA0 
1dq3A3 lolzAO 1n2fA2 lmopA2 1g60A2 1gklAO luxtAl 1rl4A0 
1dq3A4 2plc00 1lhh2P2 lihoA2 1jqlB0 111fA0 lad3A1 1rn5A0 
lef0A2 2ptd00 legaA2 1j8bA0 1khtAO 1brt00 lrtqA0 IrzhH2 
1b24A1 1djxA2 1ml8A2 lpugAO 1knxA2 1dqzA0 lm41Al leulA3 
1b24A2 1r3sA0 11qlA2 lpugBO 1pjr01 1fj2A0 2ctc00 1kqfA1l 
1m5xA0 1j93A0 1fjgC1 1fjgP0 1pjr03 117aA0 1qq9A0 2napAl 
1af500 1v93A0 lamuA4 lcliAl 1qhxA0 1qe3A0 llam02 lckv00 
lbcpB1 1k87A3 11ci04 lofuA2 1lnzA2 ltca00 laye02 1g10A0 
lpreAl lreqAl lmdbA4 1fsz02 lgkuB2 1ju3Al1 llfwAl 1hqi00 
litxA2 lreqB1l 3proC1 lpxwA0 118qAl lcv100 lobr00 2mobA0 
1jndA2 lccwB1 3proC2 1h7mA0 liqpA1l liupAO lcg2A1 lckmA1 
ledqA3 lex1Al lib8Al lnmuB0 1ni3A1 lufoAO 1h8lA1 1me3A0 
1lkfwA2 11t8A0 1cii02 lipaAl 1e32A2 2bce00 1de4C1 lfh0A0 
1hjxA2 leexA0 le42A2 1dt9A3 llw7A2 1m33A0 liu8A0 1khqAO 
1117A2 1h7bA0 1qnaA1l le7kAO 2pjrA3 lqgeDO laugAO ldeuAO 
3eipA0 1h16A0 lqnaA2 —lufyAO lhv8A1  ljmkCl _—‘1i12A0 lcs8A0 
lgrj02 ljyhAO lmp9A2 1lqu9A0 1e69A0 1jjfAO 1m4iA0 2cb5A1 
1bkf00 1r8eAl1 lmpgA1 1pf5A0 losnAO lauoAO IgheAO lgmy AO 
ljvwA0 1d5yA3 lkyfA2 liv3A0 1rflAO 1bu8Al1 1mk4A0 lqmyA0O 
1Ir9hA0 1c8zA0 1m3qA1 lopd0o loboAO 1din00 Ine9A1 lcsbBO 
1fd9A1 1d8hA0 1p5dX4 1ptf00 1f4pA0 lea5AO Ine9A2 ljqpA2 
1kt0A2 lc0pA2 1kfiA4 lejgAO 5nul00 lmtzA0 1qstA0 lmirA0 
1m5yA2 1pn0A3 3pmgA4 1bhp00 1d4aA0 lorvA2 lejwA0 lpciAO 
Im5yA3 1el5A2 lnoyAl lbdfAl ljalAl 1qo7A0 1kzfA0 1a73A0 
leq3A0 1k0iA2 2sicI0 1i50C2 2fcr00 1tib00 1n71A0 ljetA2 
lhxvAO— Ing4A2 llc0A2 1i50KO lbvyFO  1jkmAO  lfy7A2 _1dpe01 
1ix5A1 lan9A2 1t4bA2 lusmA0 le5dAl 1j1iA0 1q2yA0 luxy01 
1j6yA0 lcsel0 InvmB2 ldcoA0 lnnil0 1jfrAO llrzAl 1hskA3 
1jnsAO 1lw610 lobfO2 110wA3 1mf7A0 lmpxA1 llrzA2 lhztAO 
1llpAO lcq4A0 1j5pA2 1b4bA0 lmjnAO 3tgl00 liicAl 1nqzA0 
lqddAO legpAO lgr0A2 lis1A2 latzAO 1ku0A0 liicA2 1k2eA0 
lpwbA0O ldwmA0 ldpgA2 1xxaA0 lijbAO lwhtA0 lon0AO 1ktgA0O 
1e87A0 lhymAO 1ff9A2 lab402 1lpt6A0 lehyAO 1bo4A0 1g0sA0 
lgltAl 1dxjA2 lb7gO2 1lbjt04 lpcxA4 1lthtA0 1bob02 Imk1A0 
lgz2A0  1d5tA3 lh6dA2 _liba0O lpfkAl  1u4nA0__ liykAl 1f3y AO 
1koe00 laho00 1f06A2 1f7uA3 lrcuA0 lwm1A0 lqsmAO liryAO 
1j34A0 lnpiAO 1dih02 liqOA2 1kzhAl limjAO InslAO 1lmut00 
1j34B0 2sn300 lebfA2 1j98A0 lpfkA2 _livyAO llc5A2 1q27A0 
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续 表 
1sl4A0 1bcg00 1p9lA2 1j6wAO lkzhA2 lei9A0 lcs1Al 1i40A0 
1rdl10 layj00 1qkiA2 1dtjA0O 1pdo00 lac500 lfg7A1l le9gA0 


1h8uA0 1bmr00 lqmhA2 1j4wAl 1kqpA0O 1c4xA0 11k9A2 1c4kA4 
1f0013 1brz00 1n62B2 1j4wA2 lod6A0 1lmx1A0 leluA2 1t2dA2 
lhq8A0 1c55A0 1n62B3 1j5kAO 1k92A1 lepy01 lajsA2 lbdmA2 
lbyfAO lgps00 1n62B4 1k1igA0 lmopA1 1k8qA0 1m7yA2 2cmd02 


lesl00 1i2uA0 1n62B5 lvig00 1097C0 1pjaA0 1bs0A2 lhyeA2 
1jwiAO lica00 lvlbA4 2fmr00 1jhdAl 1lkezA2 lgc0A1 1o6zA1l 
1tn300 1jkzA0O lvlbA5 1f0xA4 lmjhAO 1jflAl 1s0aA2 1lldA2 
1r13A0 1jxcAO lvlbA6 lseiAl lpfvA2 1jflA2 lars02 6ldh02 
1jznAO lmr4A0 1vlbA7 1i6uA1 1i6mA1 1b73A1 1b5pA2 lhyhA2 
lewvA5 1myn00 1fvB4 1lvk06 1jO9A1 1b73A2 1jg8A1 1g55A1 
leggAO 1ne5A0 1fiqC2 lvom06 1qnf01 lmv8A3 1cl1A2 6mhtA2 
1qo3C0 lqmeA3 lfiqC3 1kk8A6 1jmvA0 1dljA2 1c7nA2 ldctA2 
1b6e00 lqmeA4 1fiqC4 2mysA6 lej2A0 lepuA4 1kkjA2 1lml02 
1kg0CO 1bal02 1fiqC5 1lkxA5 1k4mA0 ImgsA2 1d7uA2 lanv02 


lo7bT0 1poiA2 1jroB4 1kk7A6 Inp7Al1 lvimAO 2oatA2 laduB2 
2afpA0 lvfyAO lay7BO 1mszA0 InupAO 1moq01 1b9hAl 2vsgAl 
ljetA3 1lrmd01 ljakA2 1vhh00 ljgtA2 1moq02 leg5A2 lvsgAl 
1dpe03 lfbvA2 1c7sA2 1lbu02 la8h01 lu0eA1 lfc4Al1 ladeA3 
ljatAO 1ldjBo lnowAl lctf00 lcozA0 lu0eA2 1jf9A2 likpA3 
ljatB0 1bor00 lmsc00 1mbxC0 1ct9A2 1j5xAl 1lax4A2 1f0lA1 
1i7kAO 1chc00 lqbeAO lmg9A0 1o94D0 1j5xA2 1js3A2 1n8kA1 
1IsiqAO 1le4uA0 lqgiAl 1lbxyA0 1sur00 InriAO 1IbjnAl 1kolA1 
1u9aA0 1f62A0 lchkA2 1jj2V1 lefvA2 1m3sA0 lohvA2 1lgu7Al 
lpzvA0O 1fpOA0O 1lsvb03 1f46A0 lefvBO 1b0zA1 2gsaA2 ljvbAl 
1c4zD0 1g25A0 1kkoA1 1jg5A0 1f7uAl 1b0zA2 lbw0A2 1jqbAl 
1br702 liymAO 1lr6wA2 1ji8A1 lgpmA2 1ImvlA0 1d2fA2 1f8fA1 
1mj4A0 1jm7A0 loneAl 1jj2B2 1jilAl 1g63A0 1h0cA2 lgorAl 
1cyo00 1jm7BO 1mdl01 liq4A0 ldnpAl 1p3y10 1c4kA2 1e3jA2 
lexyA0O 1n87A0 1mucAl 1jj2D0 liqOA1 1o2dA1 lqgnAl 1iz0A1 


lkbiAl  1n62C1___lec7A1 ljtgB1 lli5Al 1jq5A1l lm40A0 _ laccOl 
lhkoAO 1i19A3 1tkkAl1 1jtgB2 1qtqA5 1sg6A1l lpwgA0O 1rlr04 
1j03A0 luxy02 ljpdX1 ljyaAO lile03 lujnAl IrgzAQ llyvAO 
1lvh5A0 1f0xA2 lchrA1l ljyoAO lirxAl lmlnA1l 1k55A0 1lpalAO 
1iq6A0 le8gA1 3grs03 1k3sA0 lni5Al lmlnA2 les5A0 1i9sA0 
llo7A0 lhskA2 1mo9A3 1k3eA2 1q77A0 lmlnA3 1m6kA0 1jlnAO 
1q4tA0 lfiqB1 lfecA3 1k8kD1 lgaxAl lmlnB1 lo7eA0 lfpzA0 


1HjlyA0 ljroA3 Inhp03 1k8kD2 llw7A1 lmlnB2 lbueA0 llarAl 

1c8uAl1 1lkvdBO 1ld7yA3 1k8kF0 1qu3A1 1m1nB3 lghpAO 2shpA3 
1c8uA2 1xvaA1l 3ladA3 1jb0D0 1bjt02 ltoaAl 1ci9A0 1d5rAl 
InjkAO 1dszA0 1ojt03 1k0rA4 1Ibgw02 ltoaA2 lnzoA1l lvhrAO 
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1ixlAO 2nllAO 1n62C2 lhh2P4 lubkS1 lefdN1 1e25A0 loheA2 
ImkaAO 2nllBO lfiqB3 lseiA2 IlqtAl lefdN2 1ei5Al 1mkp00 
lq6wAO 1hcqA0 ljroA5 1i6uA2 1t2dAl 1h11D3 lmwsA4 1r6hA0 
ldy5A0 1kb2A0 lmxtA2 1lkjqA2 1n8kA2 1n2zAl1 lqmeA2 4uagA3 
lgqvAO lgatAO lkdgA2 lgsoA2 lhdoAO 1n2zA2 lnrfAO 1p3dA3 
1n1xA0 lgnf00 1preA2 1a9xA3 1cOpAl 1pszA1l lhqsAO le8cA3 
lagi00 1lv3A0 laop01 la9xA7 1i24A1 lpszA2 lcnzA0 lgg4Al 
lonc00 lecrA2 laop03 ldv1A3 llc0A1 115hA2 llwdAO 1j6uA3 
lok7A1 1qf6A3 lexqA0 1i7nAl lhxhAO lmioA1l lhdhAl lgpc00 
lok7A2 1b7yB1 1jl1A0 liow03 loi7A1 1mioB2 1o98A2 1bjt05 
lok7A3 1b7yB4 lexqAO 1kblA1 lcldA2 lmioB4 led8A0 lab401 
lu4gA1l 1q9bA0 lnk4A1l 1c30A7 loaa00 1fjgB1 lew2A0 ljsdAl 
lkeiAl 1lptq00 1j54A0 lgsa03 1b16A0 ljg7A1l lauk01 2viuAl 
1lml01 1faq00 1i39A1 1b6rA3 luayAO 1jg7A2 lfsu01 1s5dA0 
lnkiA0 1kbeAO 2kfnAl leucB2 le6uAl 1c8kA1 1p49A1 1ltsA0O 
1kw3B1 1tbn00 1x9mA1 lehiA3 1a4iAl 1c8kA2 1d3vA0 11t3A0 
1kw3B2 1r0rI0 lnoyA2 1bjt01 lek6A2 liirAl 1gq6A0 lbcpA0 
1fluAl 1n13A0 IrthA5 lgyfAO 1h5qA0 liirA2 1c3pA0 1jc9A1 
1fluA2 1lr7A0 lbgxT3 lm0wA5 1ja9A0 1f0kA1 1poiBO 1fib01 
1f9zA0 ltgsI0 lmu2A5 lfviAl 1k6xAl 1f0kA2 1b4uB0 lfzdAl 
1kl1A0 1ldtLO 1bco01 1a0i01 InytA2 lpswAl 1f9vA0 1g38A2 
lqtoA0 4sgbI0 1fxxAl 1b04A2 loc2A1 lpswA2 lry6A0 ldciAl 
1k4nA0 1pjuA2 1lhjrA0O 1dgsA2 lorrAl luqtAl 1bg200 lfc6A3 
lecsA0 ltbrR1 1j9aA0 2hgsAl1 1jtvA0 luqtA2 2kinAO 1j7xA2 
lgipAO 1i3jA2 1qz5A1 1i50A4 lgeeAO 1f6dA1 1rlzA0 lef8A2 
1jc4A0 lefnBO 1qz5A3 1jx4A4 liy8A0 1f6dA2 1kekA3 1k32A5 
lcjxAl lavv00 1bal101 1e4fT1 lqmgA1 lfsgA0 la3aA0 lmj3A1l 
lcjxA2 lkgdA2 1bal03 1dk0AO 1t4bA1 ltclA0 1a6jA0 1pixA2 
lmpyAl lyua01 1d4xAl1 ldiv01 lgteA3 1g2qA0 lhfeL3 1pixA3 
ImpyA2 lvcc00 lezaN1 ladn00 ljayAO lqb7A0 lvsrAO ltyfA0 
lmsk01 1Isvb02 1e4fT4 1m4jA0 1kolA2 1a3c00 lghkAO luyrAl 
llugAO liqzAO ljceAl 1kcqA0 looeAO 1dqnA0 1di6AO luyrA3 
1jd0A0 2fdn00 ljceA2 1d4xG0 4uagAl lnulA0O luuyAO lefyA2 
lkopAO 7fd1A0 1ig8A3 lsvy00 1fjhAO 111qA0 lmkzA0 layl03 
1zncA0 lhfeL2 1g99A1 1f7sA0 lgegAO lhgxAO 1g8lAl1 1qxyA0 
1by200 ljnrBl 1g99A2 1p8xA1 lgu7A2 1bd3A0 leq6A0 1xnzA0 
1bm800 1kqfB2 1dt9A2 1p8xA2 liukAO lecfA2 lcbf01 1b6a01 
113gA0 1h98A0 1fjgKO 1p8xA3 1jw9BO 11hOAO 1tdj03 lchmA2 
1r4uA0 1fxd00 1e4fT3 1hqz10 1ks9A1 1dkuA1l 1khdA2 1az902 
1p32A0 lfehA3 1jj2MO 1d0nA3 InvmB1 1dkuA2 1017A2 2fokA1 
ldm9A0 1hOhB1 lilyAO 1d0nA4 lobfOl 1057A2 lbrwA2 1rlr03 
1h3fA3 1hOhB2 le3mA2 lpexA5 1p3dA1l lgnlA3 lekjAO lhozAO 
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1fjgD2 1hOhL1 lewqA2 lak600 1r12A2 lgnlA4 1i6pAO 2masA0 
1jh3A0 1h7wD5 1p90A0 1m2dA0 le7wAO0 loaoA1 1g5cA0 1p2zA3 
1p9kA0 1lkekA5 1013A0 11u4A0 levyAl loaoA2 1c96A2 lvjjA2 
lewnAO 1xer00 leol AO 1kngAO InpyA2 loaoC2 115jA4 1fjjAO 
1gqzA1l 1h7xD1 1kpf00 1j9bA1 lqsgA0 lepuAl looyAl 1lbehAO 
lgqzA2 1blu00 lgupAl 1k3yA1 lbdmA1 1mqsA1l 1poiAl 1qouA0 
lqyaAl 1fxrA0O lgupA2 108xA0 1bg601 1jbeAO lcjyA2 lapj00o 
lqyaA2 1jb0CO 1fit00 1kOmA1 lcydAO Imb3A0 lhynPO 1ksqA0 
luvqA1 lcqmAO 119vA2 lqgvAO 1dljAl 8abp01 lwpgA3 1aol00 
lhdmA1 1f60B0 1gd0AO 1r26A0 1f0yAl1 8abp02 1mo7A0 lavqA0 
1hdmB1 1gh8A0 1dptAO laba00 1lfmcAO 1jx6A1 1jj2L0 1hbnC0 
1qcsA2 lscjB0 lmwwAO0 1hd2A0 ln7hA2 1jx6A2 liuqA2 lugpAO 
lcr5A2 litpAO 1kptAO 1jfuA0O lpwxA0 1lkgsA1 1ghlAO 1d0cA1 
1e32A3 lcc8A0 lnwzA0 1tlvA0 2nacAl lusgA2 1e19A0 1m7vA1 
1cz4A2 lgxuA0 1d06A0 le6bA1 2nacA2 1dbwA0 1gs5A0 1dd7A1l 
1054A1 lqupAl 1n91A0 lerv00 117dA1 2dri01 le3mA1 ImusA2 
1i9gA1 2acy00 lmzuA0 loe8A1 ljvbA2 2dri02 lewqA1l 1bob01 
1qlmAl 1afi00 10j5A0 2trxA0 2cmd01 lgca01 1a79A2 1br901 
le0gA0 law000 lbywAO 1b4pA1 lbgvAl lgca02 luehAO lo7nAl 
1fd3A0 lcpzA0 1118A0 lfvkAO 1d70A0 lgudAl 4uagA2 lhbnAl 
1kj6A0 lfvqA0 1p97A0 1h75A0 1dxy01 ljyeAl 1p3dA2 luok02 
1e53A0 1ljwwAO 3nul00 liyhA1 1ldxy02 ljyeA2 le8cA2 llwjA2 
1e44B0 ImwyAO lacf00 iqmvA0O lhyeAl 1qkkA0 1gg4A2 1soxA2 
loqjAO 1Inh8A3 1fi100 1thx00 1j4aAl 1p2fAl 1j6uA2 1co4A0 
1mr1Co 2pii00 1f5mA0 1jlvAl 1j5pAl lsrrA0 1bx4A1 1d0cA2 
1h5pA0 1051A0 Imc0A1 laqwAl1 1lu9B2 lpea02 lekqAO 1g3p02 
1ljhdA2 1d09B1 lmc0A2 lfaaA0 2ae2A0 1a04A1 lkyhAO 1dj7A0 
1g8fA2 lnpk00 lifgAO 1a8101 lgpjA2 ldbqAl 1liiAl 1i4jA0 
leg7A3 1gk8A1 1h8mA0 1a8102 lgr0A1l lewkA2 Irkd02 1jj2Q0 
lqgynAO 5rubAl InrjAO leejA3 1mx3A2 1qo0D1 1121A1 laop02 
1fx3A0 1n0uA6 lgw5M1 ln2aA1l 1o6zA2 1bykA1l lub0AO lqgwA0O 
1div02 1dar05 1lgw5S0 1q98A0 ljqbA2 lbykA2 llhpAO lozjAO 
1jj2W0 1n0vC6 1h3qA0 loyjAl 1bdb00 1dz3A0 1j5vA0 1d4uA0 
1molAO 1lmla01 1131A1 leemA1 ldpgAl 1k66A0 1j9jA0 1fr2B0 
lcewl0 Inm2A1 1g60A1 1lgp1A0 leq2A1 1tmy00 115xA0O lo7qA0 
1lkwiAO 11k5A2 loacAl lhyuA2 1ff9A1 1dp4A2 lihnAO 1e5kA0 
1stf10 lpsdA3 lotgAO lhyuA4 1i36A1 1jdpAl 111sA0 1fo8A1 
leqkAO 1gx5A2 1q79A2 lprxAl 1lldAl loxkBO 1jx7A0 1i52A0 
lugiAO 1jx4A2 1lbpyA3 1bed00 100sA2 1dbqA2 lo6dA0 ljykAO 
11niAO 1mm102 1jmsA3 1n8jA0 1094A2 la20A1 lns5A0 lqg8A0 
1i0vA0 luvjA2 1lknyAl law901 1pjcA2 1dcfA0 lmxiA0 1fxoA0 
la2pA0 lhar02 ljajAl 1k0dA1 2pgd01 1m2eA0 lualAl lhm9A1 
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laqzAO IrthA2 1n62C3 1kte00 6ldh01 1lp6qA0 lvhyA2 lvicAO 
1rtu00 IrthA3 luxy03 2gsq01 1li4A2 1mx3A1 1k3rA1 ljv1A2 
1siiAl IrthA4 lhskA1 1gh2A0 1b7gO1 lpsdAl lvh0OAO 1112A0 
1siiA2 IrthB2 1fiqB2 la8y01 1h6dA1 1qczA0 lipaA2 lpztAO 
loacA2 Irdr02 1i19A1 la8y02 lq7bA0 1h05A0 1gz0E0 leziAO 
loacA4 1s1tB3 1f0xA3 la8y03 1f06A1 1j2yA0 1r9wAO 1g9rA0 
1ksiAl 1s1tB4 le8gA2 2trcP1 lisiA2 leiwA0 1f08A0 1lkwsAO 
1ksiA2 1lkhvA3 1i2kA1 Inm3A1 1dih01 lusgAl 112mA0 lomzA0 
la2vAl lslvB2 liyeAl Inm3A2 leny00 1dp4Al1 1tbd00 1qwjA0 
la2vA2 3hvtB3 1kt8Al1 InhyAl 1f8fA2 1jdpA2 ldzfAl ImwpA0O 
lohOAO 1jleB3 3daaAl 1bjx00 lgtmA2 1pea01 1t0fA1 1d0qA0 
InwwA0 1jlcB4 1kjqA3 lego00 1gz4D4 lewkA1 lgefAO lgsoA4 
lo7nBO 113kA1 lobdA2 1fo5A0 lhyhAl 1fiuAO 1hh1A0 1qz5A4 
lidpAO 113kA2 lgsoA3 1lg7eA0 lkyqAl1 1lg7sA3 1a79A1 1bal104 
lgy6A0 2bopA0 la9xA2 lg7oA1 1qorA2 lerzAl 1dd9A2 1e4fT2 
1q42A0 _—i fx Al lm0wA2 liloA0 le3jAl 1jr2Al 1d3yA2 1k8kA4 
1jkgAO 1fxlA2 ldv1A2 1mek00 lebfAl 1jr2A2 ldmgAO ljceA3 
1jkgBO 1nu4A0 1i7nA3 lon4A0 1iz0A2 1c8bA0 1jj2CO 1cliA2 
1q40B0 1loo0BO liow02 1pn0A2 1j6uA1 lem8A0 1h8eG2 1b37A2 
locvA0 1f9fA0 1kblA6 1qnxA0 llssA0 1j23A0 1fs0G1 1f8rA1 
lhkxA0O 1h2vZ0 lgsa02 1cfe00 1n5dA0 1fyxA0 le0tAl lqlaA4 
10f5A0 ln52B0 1b6rA2 lnrzA0 lnpdA2 leexBO 1a49A1 1q9iAl 
10f5BO 1jmtA0O 1lbxrA5 lox0A1 1p9lA1 InbwBO IpklA1 lchuA2 
1f8nA4 la9nBO leucB1 lox0A2 InhwA0O 1kjnAO la3wAl lqlaA2 
llox03 1jj2RO lehiA2 1i88A1 InvtA2 ImgpAl le8cAl1 lucdAO 
leejAl 1hl6A0 le4eA1 1i88A2 1gz6A0 1lo0uA2 1gg4A3 liqqAO 
1jj220 lcvjAl lfviA3 lm3kAl1 1lgdhAl  1t15A1 1lko7A1 liooA0 
liq8A3 levjA2 1a0i03 loeqAl 1gdhA2 —_1t15A2 lknxAl 1lbolA0 
lewfAl levjH2 1b04A1 loeqA2 _—i1i8tA1 lkzyC2 = lolxAO _1jy5A0 
lewfA2 3sxlA2 1b66A0 lafwAl 1id1A0 lcdzA0 1bhtAl ludzAO 
1i2kA2 lfolAl 1tfe01 1m3kA2 lan9A1 limoAO 1i8nA0 1h3nA2 
liyeA2 1ft8A1 lefuB3 1kjqAl lhwxA3 117bA0 1fx2A0 lgaxA3 
1kt8A2 1d8zA0 lmtpAl lgsoA1 105iA0 ljeyAl lazsAO 1qu3A2 
3daaA2 1] 有 7A0 ljrrA2 1a9xA1l 1tt5Al ljeyB1 lazsBO lfcdA3 
1fuiA3 1fjcA0O 1m93B1 ldv1Al1 1tt5D1 1150A2 1kid00 ldqaA2 
liedAO 1n88A0 11j5A1 1i7nA2 lpqwA0O lohtAO 1srvAO 1r31A2 
1f11A0 1no8A0 1qlpA2 liow01 lpsdA2 1lba00 lgmlAO lhp1lA2 
lat3A0 lo0pAO lsek01 lgsa01 ledzAl 1j3gA0 lecrAl 1j09A3 
1c96A4 lowxA0 1jmoAl 1b6rA1 lqp8A1 ldclAl libvBO 1qtqA4 
115jA2 lpltA0 1lfocAl lehiAl 1qp8A2 lcfr00 1kblA3 lfamA0 
1bd0A1 lqm9A1 ltb6I2 le4eA3 1lsuAO 1knvAO IzymAl lceeBO 
TodcA2 lqm9A2 limvA2 107jA2 1gkiAl ldfmAO 1a9xB1 le0aB0 
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1ct5A0 1sxl00 1c96A1 lkrhA3 leulAl 3bamA0 1de4C2 lej5A0 
lhkvA2 1u2fA0 1c96A3 logiA2 lkqfA2 1m0dA0 1vi4A0 1gh9A0 
leyeAO lufwA0 115jA3 1fdr02 2napA2 2fokA3 1b7yB3 lepuA2 
1f6yA0 2u1a00 115jA6 lcqxA3 1aa602 1nox00 lmxtAl lmqsA3 
llucA0 laye01 1k5nAl lumkA2 1i2aA2 1f5vA0 1d5tA4 1pfo01 
1lucBO 1pca01 1l]qvA0 ljalA4 1lad202 licrAO llqtA2 lhyoA2 
lnfp00 lnsa01 lonqA1l 1f20A1 lmzpA2 lvfrAO 1kdgAl lgttAl 
lezwA0 lcg2A2 3fruAl la8p02 levlA2 1p5dX1 3grs01 lnr9A0 
InqkAO 1nk4A3 1je6A1 2pia02 1g5hA3 1p5dX2 3grs02 1k4iA0 
loc7A0 ImswD3 la6zAl1 lep3B2 1h4vB2 1p5dX3 1q9iA3 1k7jA0 
1dysA0 1x9mA3 1kcgC0 1qfA2 1lhc7A2 1kfiAl lgteA4 lsnnA0 
1tml00 1b7yB6 1zagAl 1mw9X1 1lhttA2 1kfiA2 1mo9A1 lhruAO 
1s2wA0 1b3tA0 1jfmAO 1i7dA1 1qe0A2 1kfiA3 1mo9A2 ljcuA0 
lizcAO leayCO 1kkAO 1lgkuB5 latiA2 3pmgA3 lfecA1 1k2fA2 
1066A0 1dqaA3 1d4tA0 1fp2A1 lnf9A0 1p6oA0 lfecA2 luvjA1 
1dxeA0 1r31A1 ljyrAO lej0A0 1im5A0 luwzA0 1pn0A1 lfs7A2 
le0tA2 1kp6A0 InrvAO linlA1 lyacAO 1ctt01 lel5A1 1g71Al1 
1f8mA0 lhbnA2 1h90A0 1jg4A0 InbaAO lctt02 lgpeAl lospO3 
lmumAO lhbnB1 1bmbAO 1o9gA1 1p5fA0 lg8mA2 1k0iA1 1rl6Al1 
1kblA4 1ftrAl lopkA2 1054A2 1fy2A0 1g8mA3 1m6iA2 1rl6A2 
1jqnA2 1ftrA2 2shpA1 1g60A0 lkwgA2 lixh01 1b37A1 1jj2E1 
1n55A0 1f9yA0 2cblA3 leg2A0 119xA0 lixh02 1f8rA2 1jj2E2 
lvyrAO 1dj0A2 lbglA4 lne2A0 1n57A0 InnfAl lhyuAl 1i50F0O 
1p1xA0 1q79Al1 1jwoAO 1d15A1 1p80A3 InnfA2 lhyuA3 1qklA0 
1q6oA0 1fa0A1 1m61A1 1dusA0 1vhqA0 latg01 lnhp01l 1dzfA2 
2tpsA0 1fjgJO 1m61A3 1g55A2 lolyAO latg02 Inhp02 lv7rA0 
lujpAO 1i19A2 1mil00 1lmjfA2 1a9xB2 ljetAl 1094A3 1k7kA0 
1p4cA0 1f0xAl 1fu5A0 1v3900 Irw7A0 lryoAl 1trb01 lex2A0 
1jubAl lekrAO 1ju5A0 2dpmA1 lilqBO 1lryoA2 1trb02 1dbuA0 
1qopA0 lregX0 1luiAO lm6yA1 1q7rAO lmqiAl 1d7yA1l lccwB2 
lub3A0 1dj0A1l 2pldA0 1jqeA0 1g2iA0 ImqiA2 1d7yA2 1dd9A1 
lgvfAO 1qd1A2 1d5tA2 113iA0 ljvnAl lpb7A1 lchuA1l 1022A0 
1thfD0O 1f3vA0 lvg0A2 1i9gA2 lgpmA1 1pb7A2 1qlaAl 1mzgA0 
1dvjAO lgmuA1 licxAO laf702 1ka9HO 1ii5A1 lvg0A1 1ni7A0 
lof8A0 learA2 1kcmA0 1g38A1 1qdlBO 1ii5A2 3ladA1 liq8A2 
1d3gA0 1h72C2 lem2A0 1hidAO lvirB1 1jlnAl 3ladA2 1gd8A0 
1f6kA0 1kr4A0 1jssA0 1kpgA0 118aA4 1jlnA2 lng4A1l 1ni5A3 
lfcqA0 lnaqA0 1In1A0 1f31A1 lgpuA3 lgtkAl ljehA2 liw7D2 
1h7nAO 1p11A0 1lvk02 6mhtAl 1lkekA2 lgtkA2 llvl01 116rA2 
lqwgA0 1kn6A0 loe9A2 1im8A0 1ni4B2 lanf01 lfedAl liw7C2 
lgteA5 1in0A1 1kalAl 1kyzA2 - 1hqkA0 lanf02 lfcdA2 liw7C3 
lgzgAO ln0uA4 lnuwAl lnv8A2 lejbAO lsbp01 lonfA2 1i50B3 


附 表 5 蛋白质 结构 域 序 列 家 族 层 样 本 集 . 191 . 
续 表 

ldosAO ldar03 1jp4Al lqamAl 1di0AO lsbp02 lh6vA2 liw7D1 
lpelAO lu2rA4 llbvAl lxvaA2 1c41A0 lamf01 leyqA2 1jh6A0 
1gqnA0 1kkhA2 lni9A1l lhnnAO 1bfd02 lamf02 1jkeAO liuhAO 
lepxA0 1k47A3 2hhmA1 1jsxA0 1bfd03 1al301 1j5uAl llc5A1l 
1hl2A0 11q9A0 lg0hAl 119kA2 lvlrA0 1al302 1ljw3A0 lcslA2 
105kA0 liujAO linp02 1khhAO lvirB2 llst01 1d15A2 lfg7A2 
lvc4A0 1q4rA0 Inm8A2 Inw3A2 lgpuAl 1lst02 1b25A1 1k9A3 
1qo2A0 lilgA2 3cia00 li4dwAl lgpuA2 Inh8Al lako00 leluAl 
lhlyAO 1lxjAO 1sczA0 lbooA0 lzpdAl Inh8A2 1i9zA0 lajsAl 
lonrAO llxnAO leaf00 ldctAl lzpdA3 lpot01 1hd7A0 lm7yAl 
1ktbAl 1mlgAl lgpeA3 InkvAO 1kekA1l lpot02 2dnjAO lbsOA1 
Ime8A0 livzAO luylAO lpjzA0 lkekA6 leljAl lmqoA0 lgc0A2 
lojxAO 1nxiAO 1i58A0 1jkxAO 1ni4A0 leljA2 1qh5A0 1s0aAl 
1p0kA0 llfpA3 1id0A0 lfmtAl 1ni4B1 leu8A1 1m2xA0 lars01 
1zfjA0 lmw7A3 lpvgAl lchd00 lpoxAl leu8A2 1k07A0 1b5pA1 
116wA0 ltig00 1b63A1 1gci00 lpoxA3 InkxAl lsmlAO 1jg8A2 
leuaAO ludvAO 1h7sA1 lic6A0 lpvdA3 InkxA2 1jjeAO 1cl1A3 
lm5wA0 lnfjA0 lmud5A1 lga6A0 lqsOAO lwdnAl la7tA0 lc7nAl 
ln7kA0 lhe7A3 lgkzAl 1tlgAO ljscA3 lwdnA2 le5dA2 1kkjAl 
1nsj00 1njl1A3 1aj600 1r64Al1 lamuA1l lcb6A1 1gk9B1 1d7uAl 
1094A1 1di2A0 1th8A0 1c4kA1 lamuA2 lcb6A3 1xffA0 2oatAl 
loya00 lo0wA2 1jm6A1 10i7A2 llci01 1dpe02 1g3kA0 1b9hA2 
1pii01 1lpkp01 1bxdAO leucB3 llci02 3thiAl lryp10 leg5A1 
1pii02 lekzAO lixmA2 1jf8A0 lmdbA1 3thiA2 lryp20 lfc4A2 
1dqwA0 1qu6A1l 1qqqA0 1dl1qA0 lmdbA2 1a99A2 lrypA0O 1jf9A1 
lep3A0 lqu6A2 1b5eA0 liibAO 1008A1 lixcA2 lrypBO lax4Al1 
1kbiA2 lgtkA3 1lbkpAO lccwA0 116rA1l lixcA3 lrypCO lp3wAl 
ldbtA0 1llimC1 1m15A2 lreqA2 1q92A1 1i6aAl lrypD0O 1m32A1 
leepAO lalhAl lhtoAl lreqB2 117mAl 1i6aA2 lrypE0 1bjnA2 
lqpoA2 1rmd02 lqveAO lbmtA2 1qq5A1l 1kalA2 lrypF0 lohvAl 
2btmA0 lmeyCl 1dzoA0 1byi00 lnnlAl lnuwA2 lrypGO Irv3Al 
lofeB2 lubdCl1 lay200 1r2qgA0 1kleAO 1jp4A2 lrypHO 2gsaAl 
lofeB3 lubdC3 1t1dAO 1ls1A2 1n8nA0 llbvA2 lrypl0 lbw0A1 
1i4nA0 2gliAl 1fs1BO lctqA0 lnrwA1l 2hhmA2 lrypJO 1d2fAl 
ljcnA0 2gliA2 1lm8CO 1kgdAl 1swvA1 1g0hA2 lrypKO 1h0cA1 
ljrlB0 2gliA4 1buoA0 1lky3A0 lwpgA4 linp03 lrypL0O 1c4kA3 
lhg3A0 2drpAl 3kvt00 1mh100 1ltqA2 1ni9A2 ljgtAl lel6A3 
lilwAO 2drpA2 lnn7A0 lm7gA0 lo4wA0 lcldAl lct9A1l 1jj2HO 
7a3hA0 1b69A0 lnexA0 loxxK1 1a7601 1a4iA2 lecfAl lqpoAl 
lug6A0 1bbo02 lhv2A0 1r8sA0 ltfr01 lnytAl lfm2B1 lo4uA1l 
litxA1l lncs00 191400 1b0uA0 lbgxT1 lInpyAl lofeB1 lbrwAl 
lhinAO 1tf3A1 lgccAO 1c40A1 ltaq01 lbgvA2 1q5qA0 2tpt03 
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le4mM0 ltf3A3 
ljndAl lyuiAO 
1hx0A1 2adr01 
lodzAO ImgtAl 
lgnrAO 1sfe01 
lur1AO 1bbg00 
lbqcA0 1dq3A2 
1ht6A1 1puc00 
1jz7A3 lcksA0 
ledqA2 1gk8I0 
ledg00 lrblM0 
lgcyA1l lbwvS0 


1jilA2 1i2aAl1 
3. a-B 结构 

1h8pAl1 1pls00 
116jA3 1cOmA2 


116jA5 lex4A2 
1j7mA0 1d09B2 
1goiA2 1bkb01 
laiw00 1khiAl 
led7A0 1mlgA3 
1bx700 1rl2A2 
1skz01 1g2bA0 
1g1tA2 1jo8A0 
lnziA2 1i1jA0 
1kliL1 lootA0 
1g21B1 lckaA0 
1danL1 1fmk01 
1q4gAl1 1bbzA0 
lfakL1 lgcqC0 


1klo01 lng2Al 
1klo02 Ing2A2 
1klo03 1i07A0 


1dx5I1 1kjwAl 
1dx5I2 1pht00 
1dx513 1bb900 
lxkaL1 lycsB2 
leaiC0 lad5A1 
lmoxC0 1jqqA0 
lnt0A2 lark00 
lautL1 lawj00 
lnqlB0 laww00 


lcmiA0 
1h4xA0 
lauz00 
1fc6A1 
1k32A4 
118bA0 
lap800 
1dlrA0 
2if100 
lbolAl 
lbolA2 
lpp9A1 
lpp9A2 


1gj7B1 
1gj7B2 
los8A2 
1kliH1 
1kliH2 
lagjAl 
lagjA2 
lelvAl 
lelvA2 
leq9Al1 
leq9A2 
2hlcA1l 
2hlcA2 
lnn6Al 
lnn6A2 
leptAO 
leptBO 
llvmA1 
leqqAl 
IcqqA2 
1q2wAl 
1q2wA2 
1g21A2 
1qa7A1l 
1qa7A2 
2hrvAl 
2hrvA2 
llcyAl 


1c40A3 
IcipAl 
1Inn5A0 
lgtvAO 
lvhtA0O 
laquA0O 
1g6hA0 
1in4A1 
1p5zBO 
1zin00 
laky00 
1f60A1 
1e2kA0 


1go3E1 
1khiA2 
1luzAO 
1jb7A1 
1jb7A2 
1jb7A3 
1pxfA0 
1b8aAl 
lcuk01 
1g2912 
1je5A0 
1kI9A1 
1qzgA0 
lfviA2 
lgd7A0 
110wAl 
ImkhAO 
1hh2P3 
leloAl 
lqvcA0 
leovAl 
1k3rA2 
In9wAl 
1rl2A1 
1jj2A2 
1ljmcAl 
1jmcA2 
3ullA0 


附 表 5 ”蛋白质 结构 域 序 列 家 族 层 样本 集 


lexnA2 
lfuiAl 
1qopB1 
1qopB2 
1058A1 
1058A2 
1f2dA1 
1f2dA2 
1j0aAl 
1j0aA2 
ltdj01 
ltdj02 
1k7cA0 


logaD2 
logaE1 
logaE2 
InkoAO 
IpkoAO 
lsmoA0 
lmy7A0 
1kgcD1 
lkgcE1 
loaqL0O 
lxfpA0 
ledqA1l 
ljilAl 
lngzB2 
1pewA0 
1q0xL2 
116xA1 
116xA2 
1fitX0O 
1mfa02 
1nkr01 
lpbyA2 
lpbyA3 
1qhoA3 
1qhoA4 
lw80A2 
2fcbA1 
2fcbA2 


1p77A1l 
lgtmAl 
llehAl 
lnpdAl 
ledzA2 
lcby00 
3pviA0 
llam01 
lojrAO 
le4cP0 
1k0wA0 
1pvtA0 
leulA2 


lgmiAO 
1rsy00 
le7uA2 
lbdyAO 
1djxA3 
1rlw00 
1dsyA0 
1lrh8A0 
1f86A0 
lmfmA0 
loalAO 
lej8A0 
1noa00 
lakp0O 
lc7sAl1 
le5bA0 
lexg00 
1jz7A2 
1jz7A4 
1c7sA4 
1lbhgA2 
1la3qA3 
liknA2 
lp7hL1 
1svb04 
lokeA4 
1p5vAl1 
1m1sA0 


1q5qHO0 
lao0A1 
1j2qHO 
luteAO 
1jk7A0 
InnwAO 
lauiAO 
1g5bA0 
1ii7A0 
AkbpA2 
lhp1Al1 
la6q01 


2cavAl 
lne6A1l 
lne6A2 
1051A0 
lo7fAl1 
1o7fA3 
1ft9Al1 
lrc6A0 
1fxzAl 
1fxzA2 
1m40A0 
lqqp10 
1qqp20 
1qqp30 
laym10 
laym20 
laym30 
1hxs10 
1c8nA0 
1b35A0 
1b35B0 
1b35CO 
2stv00 
1ddlAO 
lng0A0 
1f2nA0 
1pgl10 
1pgl20 


续 表 


1fm0E0 
1n62B1 
lvlbA3 
1fiqCl 
ljroB1 
1j3aA0 
1nd4A0 
1j71A2 
lucsAO 
le8pA0 
1d0cA3 
1dd7A3 


1i7dA3 
leuwA0 
1sixA0O 
1f7dA0 
1pkhAO 
1sjnAO 
ltul00 
1kmtA0 
1ds6B0 
1gpr00 
1jz7A5 
1n7oAl 
ljovA0 
lcb8A2 
1hn0A3 
1j0mA2 
1siiA3 
~loacA3 
1ksiA3 
lgpiAO 
1gp0A0 
1m6pA0 
lwpgAl 
1f31A2 
1g6q12 
luw6A0 
InjhAO 
liw7D3 
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lccvA0 lazeAO lleyA2 1lb7yB2 leczAl 1nOlAl ltmel0 1lnzA1l 
lcouA0 ”1lhsq00 lmbmAl ”lckmA2 lcczA2 lmspA0 1ltme20 lpu5A0 
lhae00 1j3tA0 lmbmA2 1l1quqA0 lcs6A1 4kbpAl 1tme30 1jmaAO 
1hj7Al ljegAO lsvpAl 1quqB0 lcs6A2 lsfdA0 2bbvA0 Irg8A0 
1hj7A2 Inm7A0 lsvpA2 1a0i02 lcs6A3 loelAl 4sbvA0 1knlAO 
1hx2A0 ludlAO 2pkaA0 1p16A3 les6A4 loelA2 2tbvA0 lpwaA0 
1k36A0 lue9A0 2pkaBO leygAO Imy5A0 1plc00 lbev10 112hA0 
113yA0 luffA0 lbefA2 1i50HO lugnAl 1bqk00 1f8vA0 1a8d02 
1tpg02 1dj7B0 ldleAl 1lloC1 luvgA2 ljzgA0 1gff20 1lmd6A0 
lextAl 2ahjB2 1ldleA2 ldgsA4 lvcaAl 1lkv7Al1 lny710 ldqgAO 
lextA2 1jb0E0O ldy9A2 1fjgLO lvcaA2 1lkv7A2 1e57A0 1qluAO 
1d4vAl lvie00 lfiwAl 1fjgQO lepfAl 1e30A0 1m06GO0 lavwBO 
1d4vA2 1lvk01 lfiwA2 11tlA2 lepfA2 1qhqA0 1dg6A0 1wba00 
1d4vA3 1kk8A1 lucyHO 1hr0W0 lqfoAO lfwxA2 2tnfA0 1m2tB1 
ljmaBl _—1j2P0 lazzAl 1d7qA0 lclc01 ljer00 lpk6A0 lm2tB2 
1jmaB2 1g8xA4 lekbB2 lewiAO lgsmA1 2cuaA0 1pk6B0 lavaC0 
1lml03 2mysAl Im9uA1 1j6qA0 lgsmA2 libyAO 1091A0 lepwA4 
1f94A0 1fx7A3 lorfA2 1jjgA0 1j0OhA1 lhfuAl laly00 1jlxAl 
1m9zA0 1bi103 lbqyA2 1jt8A0 1jmxA2 lhfuA2 lkxgAO 1jlxA2 
1Inxb00 lbymAO 2hntC0 lne3A0 Ineu00 lhfuA3 liqaAO lqqlAO 
lbteAO 1kq1A0 2hntE0 lpfsA0 ltvdA0 lgskA1l 1rj8A0 lhwmB2 
1ff4A0 1mgqA0 lezxC0 1rip00 lvjjAl lgskA2 ltnrA0 ldfcAl 
1tgxA0 1ljoA0O lautCl 1sro00 lvjjA3 lgskA3 1qhdA1l ldfcA2 
lfas00 1d3bA0 lky9A1 liw7C6 lvjjA4 1kdj00 lahsAO ldfcA3 
lhc9A0 1d3bB0 lmd8A1 1i50B7 lwwcA0 2cbp00 lbvp12 ldfcA4 
lrewCO 1m5ql11 lgpzA2 loewAl1 lcqyA0 laozAl 1h4gA0 1hcd00 
lcdq00 1hk9A0 lbefAl loewA2 2fbjH2 laozA2 lolrAO 1j0sA0 
ldrs00 1bia03 ldy9A1 1InhOAO 1a64A0 laozA3 2nlrA0 1b2pA0 
ljgkA0  1b34A0 1ljxpAl 1lhtrB1 1bf201 likoPO 1hObAO _Iciy02 
1c2aAl 1b34B0 lalrAl lhtrB2 ledy01 1kbvAl lt6gC0 1ji6A3 
1h34A0 ln9rA0 1h8eD1 1b5fA0 ledy02 1kbvA2 Inls00 lvmoA0 
1df9C0 lmlfA0 1alx00 1w50A1 1dqtA0 lcyx00 1lkqrAO louwA0O 
1bi6HO 3vub00 1jnpAO lw50A2 lex0A1 1m56B2 likpAl lugxAO 
lelvA3 lub4A0 1i71A0 ldpjA2 lfhgA0 2occB2 lis3A0 1c3kA0 
1h0O3P1  1ne8A0 ipmlAO __ 1fmb00 lgl4B0 lgw0A1 1lgv9A0 1ljmlA0 
1lh03P2 1lbco02 2hppP0 lhrnA2 llp9E1 lgw0A2 ”lo4yA0  InykAO 
lly2A1 lmhnAO 1jfnAl 1j71Al lglcA0 lgw0A3 ldypAO lo7nA2 
lly2A2 _ligqAO 1lkrhA2 1j71A2 liam01 lkew0Ol  1d2sA0 _1rie00 
lridAl 1khcAl logiAl 11f2A1 liam02 1kcw02 1a8d01 lfqtAO 
1ridA3 1h3zA0 1f60A2 11f2A2 lmh5B2 lsluAO lgzcA0 1g8kBO 
lridA4 1n27A0 1f60A3 2-Apr-01 InezGO 1lbg1A2 lnltA2 lrfs00 
lg44C4 ”lm9sA3 ”lexmA3 2-Apr02 luadC0 1lg4mA2 1w0pAl 1lhxn00 
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1qubA1l 1m9sA4 1fdr01 Afiv00 luctAl 1lsoxA3 lw0pA3 litvAO 
lqubA2 1ib8A2 leqxA2 1pfzA2 longA2 1b4rA0 2ayh00 1gen00 
lqubA3 1lplAO lumkA1 Impp02 lev2E1 laohAO lw6nA0 lghuA1 
lqubA4 lixdAO 1jalA2 2rspA0 lev2E2 1g1kA0 ImveAO 1fbl02 
lqubA5 1jj2S0 1kk1A2 llyaAO 1hkfAO layoAO lukgAO ltl2A0 
1e88A3 1lpcfA0 1kk1A3 llyaBO 1qfhAl 1f01A3 2ltnA0 3sil00 
lgknAl le8rA0 1f20A3 lnsoA0 1qfhA2 1g87A2 1g86A0 1f8dA0 
IgknA2 1g31A0 1lg7sA2 lawqA0O 1zxq01 InbcAO 2sli01 InltAl 
1hfi00 1p3hA0 1g7sA4 1v9tA0 1zxq02 leaqA0 1dhkB0 1w0pA2 
1tpg01 1lm104 2pia01 lis2A2 3fruA2 luolAO 1bkzA0 InscAO 
1jsdA2 1qz5A2 1ddgAl 1jqiA2 1dn0B2 1ldqiAO lepwA3 lw80A1 
2visC2 1k8kA2 lep3B1 1jiwl0 1fp5A1 1dfx00 1ldykAl1 2sli02 
lipbAO IgntAl 1n0uA3 1smpl0 1fp5A2 lamx00 1dykA2 le8uA0 
limt00 lamuA3 IqfjAl 1x8pA0 1ji2A1 lwho00 lsacA0 1h61A0 
1mkkA0 llci03 1dar02 1kt6A0 1m7xAl1 InepAO 1v6iA0 1pjxA0 
2tgi00 lmdbA3 1jj2B1 1i4uA0 1f2gA2 1ktjAO 1h30A1 lcruA0 
lrewA0 1mtpA2 laipB2 lifc00 lilrAl 1lm8V2 1h30A2 lerzA2 
lagqAO 1jrrAl laipB3 1lf7A0 1n26A2 lejfA0 1c4rA0 1q7fA0 
laocAO 1m93B2 1dinAO 1qftA0 1b88A0 lgmeAO lhlcAO InpeAO 
1b8kA0 11j5A2 1h8eA1 1kqwAO 1f42A2 1lgmeBO 1jhnAl 1k32A1 
1m4uA1 luhgAl li8dAl 1hmr00 1f97A1 1lshsAO 1a34A0 lofzA0 
1hcnA0 la7cA2 1i8dA2 1dzkAO 1f97A2 lacc04 lstmA0 lfwxA1 
1lhenBO 1qlpAl 1kzlA2 le5pA0 1fo0A0 1h6fA0 1pgs01 1lgxrAO 
1jpyAO las4A1 1e43A2 lqy1A0 1fo0BO le2wAl 1pgs02 lnr0A1l 
1f17BO lhp7A1 lhvxA3 1mdc00 1g0dA1 1g4mA1 IsdwA2 Inr0A2 
lpdgAO 1sek02 le0tA3 1lbebAO lhdmA2 1f00I1 lacc02 lpbyBO 
1jhfAl 1jmoA2 1pklA3 1bj700 lhdmB2 lcwvA2 1lod3A0 2bbkHO 
1f39A0 lqmnAl 1lpkyC3 1cbs00 litbB1 lewvA3 1k3iA1 1jmxBO 
1b12A1 1k90I2 1bd0A2 1kxoA0 litbB2 lkyfAl 1d7pMO0O lgotB0 
lumuA0 1tb6I1 7odcA1l lepaAO litbB3 1lp5vA2 1jz7Al 1k32A2 
1a7i00 limvA1 1f3tA1 lgm6A0 lje6A2 114i1A2 1ju3A2 1k8kCO 
1b8tA2 4ubpC1 lhkvA1 1ftpA0 la6zA2 1n0lA2 1jhjAO _1ri6AO 
1g47A0 lnteA0 2eng00 llfo00 1cd800 1f0012 lgnyAO 2madH0 
1j20A0 1ImfgAO 1bw300 116mA0 lo0vA1 lewvA4 1j83A0 lerjAO 
InypAO 1qauA0 1pqhA0 1avgI0 1p7hL2 1n12A0 lw80A3 ljofA0 
4ubpB0 1g90A0 leulA4 1jzuA0 ImcpH2 1pdkBO 1lguiAO 1p22A2 
le9yAl1 ln7eA0 1kqfA7 lluqAO IncnAO 1k1fB1 1k12A0 1a12A0 
1kmxA0 lobzA1 1pyuB0 InqnAO 1cid01 1klfB2 1kexA0 1jtdBo 
1be3I10 lfc6A2 lqcsA1 1ei5A2 1cid02 1d5rA2 lmpxA3 1k3iA2 
ligrA2 lihjAO 2napA4 1ei5A3 limhC2 1h8lA2 1dyoA0 lutcA0 
lexkAO 1lbe9A0 laa604 1pbyA1l 1dr9A1l 1dceA2 lgqpA0O 1h2wA2 
lep3B3 lgavA0 lcr5A1l 1jmxAl 1dr9A2 1d2oA1l 1i5pA1l 1g72A0 
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1jhnA2 1kwaA0 1e32A1 lqjpAO leh9A3 1d20A2 1r64A2 1flgA0O 
lhhnAO 1k32A3 1cz4A1 1qj8A0 1ktkE1 1e42A1 1lshwBO lqksA2 
lmvfD0 llcyA3 liw7D4 1p4tA0 lac000 1i31A1 lciy03 1k7iAl 
lub4C0 lnf3C0 1n10A1 1k3bA0 lehxAO 1i31A2 1gu3A0 lqreAO 
lahl00 1rzxA0 1pfbA0 1whi00 1gxeA0 1hx0A2 1ji6A2 lv3wA0 
1b8wAO 1160A0 1c8cA0 loxdAO lie5AO 1ht6A2 lbhgAl lhm9A2 
1bds00 1ky9A3 1b3aA0 lggxA0 1jbjAl lgcyA2 1p8jA2 lmr7A0 
1h50A0 1lky9B4 1m8aA0 2por00 1jbjA2 1jilA5 1cx1A0 lkgqA2 
1sh100 1d5gA0 lnr4A0 3prn00 lnct00 lkwgA3 1k42A0 1fxjA2 
1n2fAl 111600 ltvxA0 1e54A0 1tit00 ImxgA3 1lxnaAO 1krrA2 
1ml8A1l 1iu0A0 1dokAO lhxxA0 1wit00 1e43A3 2arcA0 1lxa01 
1i5011 1m5zA0 le0bA0 la0sPO lokOAO 1qhoA2 lnziAl 1xat00 
1i50I2 1pleA0 107zA0 laf6A0 2hft01 liv8A5 1sfp00 110sA0 
1d16A0 luepAO 1f21A0 1kmoA2 2hft02 1jOhA3 lsppBO 1m8nA0 
lpft00 luewAO lqg7A0 IngeA2 1fna00 1ktbA2 lnt0A3 1k5cA0 
1qyp00 luezA0 3il800 lfepA2 lten00 7taa02 lsdwAl 1h80A0 
1tfi00 luf1A0 lcm9A0 lqfgA2 leerB1 1bf203 lig0A2 1pe9A0 
lyua02 lufxA0 1knaAO lgweAO leerB2 luok03 lig3A1 lczfA0 
1qf8A2 lujvAO 1dz1A0 1p80A1 lbquA1l lgjwA2 lodmAO 1qcxA0 
1jj2YO 3ezmA0 leigAO 1jb7BO lbquA2 1h3gA3 1dcs00 lgq8A0 
1jj2Z0 lospO1 lel0A0 2sli03 lcfb01 1m53A3 1lgp6A0 1bn8A0 
Irkd01 lmkcAO 1g6zA0 1qd6C0 lcfb02 lua7A2 le5rAl 1bhe00 
1rb900 lqslAl1 1j8iA0 1dfuP0 1ldanTO 1ji2A3 1nlqAO 1Irmg00 
1lkoA2 1qs1A2 1lrjtA0 lfeuAl lex0A3 1m7xA3 1k5jA0O lair00 
1dx8A0 lojqAO 1qb5D0 lqtqAl lex0A4 1lwjA3 loh4A0 lee6A0 
lpfvAl 1g24A0 lafp00 1qtqA2 1fnf01 leh9A2 lgwmAO lqjvAO 
lospO2 lgxyA0O 1c4qA0 1e50B0 1fnf02 1i82A0 ljopAO 1qql AO 
ImknAO lgiqAl 2sns00 lqwzA0 1fnf03 lim3D0 InqjAO ldabAO 
1i5hW0 1j7nA2 2sob00 1t2wA0 lfyhB1 1d7bA0 1f35A0 1dbgAO 
1jmqA0 luscAO loxxK3 liw7C1 lfyhB2 llyqAO ldmhAO lezgAO 
lo6wAl1 1lfimA0O 1fr3A0 1i50B6 laxiBl lm9sA2 3pcgA0 lofeB4 
lo6wA2 1i0rA0 le2wA2 1lp6vA0 laxiB2 lgyvAO 3pcgM0 1hf2A2 
1Inh2C0 1dnlAO 1h9mA1 ljeyA2 1qg3A1l 1p4uA0 1gff10 layl02 
Inh2D2 lejeAO 1b9mA2 ljeyB3 lqg3A2 1lmiAO lvpsA0 1p2zAl1 
InvpCO 1gk9B2 1b9mA3 lc5eA0 1f6fB1 116pA0 1sval0 1ois02 
lnvpD2 1fm2B3 1bdo00 4bcl00 1f6fB2 lifrAO 1khxAO 11ktAO 
ldkgA2 liq8A4 1h9sA2 1jk4A0 liarB1 1075A3 1dd1A0 lpreA3 
lauuAO linlA2 1g2913 1v54F0 liarB2 1n67A1 1g6gA0 lgppAO 
ljubA2 1ImjfAl 1htp00 1h8eHO 1n26A3 1n67A2 llgpAO lat000 
1g3p01 luirAl liw7C5 1fsOE1 1f42A1 1075A2 lgxcA0O 1mi8A0 
1tolAl liy9A2 1q12A3 1h4aX1 1f42A3 1p5vB0 ldmzAO 1ldq3A1 
lungAO liw7C4 1dczA0 1h4aX2 1g0dA3 lkzqAl 1g3gA0 lam200 
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leazA0 1fjrAl lfyc00 lnpsA0 1g0dA4 1kzqA2 1mzkA0 4dpvZ0 
lfgyAO 1jjdAO 1ghj00 2bb201 lqr4Al1 1mkfAl 1r21A0 1lp3A0 
lntvAO 1jj2T0 1gjxAO 2bb202 llqsR1 lmkfA2 luhtA0 lg9mG0 
1btkAO lpq7Al 1k8mA0 lhdfAO llqsR2 1f8nA1 11b6A0 lbdfA2 
1ddwA0 1pq7A2 3chbD0 1bd7B2 1cd9B2 1bu8A2 lczyA0 1i50C1 
1mixA2 1ssxA1l 3seb01 lwkt00 legjAO 1cal02 1k2fAl 1kmoA1 
levhAO 1lssxA2 1dyqA1l 1bhu00 lfnhAl 1lox02 1n70A3 IngeAl 
lfaoA0 lgvkB1 leu3A2 1c01A0 1fnhA2 1qhvA0 lcb8A3 lfepAl 
1h4rA3 lgvkB2 lenfAl 1f53A0 1fnhA3 1h7zA0 1flsA3 1qfgAl 
1ddvAO 1hj9A1 let9A2 1g6eA0 1kv3A3 lsvb01 1j0mA3 1jbiAO 
1mai00 1hj9A2 1m4vA2 2bbkL0 1lgh7Al1 lokeA1 1cq3A0 1dqcA0 
1btn00 la7s01 3tss02 1dkxA1l 1gh7A2 IrqwA0 1p35A0 lhxrA0 
ldynAO la7s02 lbcpB2 1bpr00 1gh7A3 InxmA0O 1c3gAl1 1lh6qA1 
laqcAO larb01 lbcpD0 1k5nA2 1bpv00 lep0A0 1c3gA2 1g9gA2 
1ldbhA2 larb02 lbepF0O 1k5nBO 1j8kA0 1x82A0 1k3wAl 1p7tA2 
lqqgA1 leaxAl 1jb3A0 lmjuH1 1k85A0 1fi2A0 1l1zA2 1fjrA2 
lqqgA2 leaxA2 1br902 1lmjuH2 llwrAO 1vj2A0 lee8A2 1g81A3 
1kz7A2 lgg6B0 1d2bA0 lmjuL1 1In6uA1 ldgwAO 1k82A2 1dtoA2 
1jOwAO0 lgg6C0 luapAO lmjuL2 lowwAO lgqgAl1 lgwyA0 1qqhA0 
lomwA5 1h8dH1 1c90A0 lmexH1 luemAO 1pmi01 1ni5A4 1ik9A1 
1k5dBO 1h8dH2 107iA0 lmexH2 luenAO 1pmi03 lnc7A0 1a8h02 
lfoeA2 lsgpE1 loxxK2 1mexL1 lujtAO 1j58A1 InwbAO 1b12A2 
lgg3Al1 lsgpE2 1f10A0 lmqkHO 2fnbAO 1j58A2 1js8A2 
1lddmAO lgvzAl 1a6202 IncwH1 lgtfA0 1hw5Al 1p2zA4 
1fhoA0O lgvzA2 lgvp00 leajAO 1o6sB0 1o5uA0 4htcI0 
lmkeA0 1bio01 1k0rA3 1k3iA3 ledhA2 11r5A0 1hic00 
ln3hA0 1bio02 1bkb02 logaD1 luowA0 104tA0 lmw9X3 
4. Few secondary structures 
1lkekA7 1bg503 1v54M0 lolgBO lan4A0 3btmI0 lubkS2 1fzaE2 
1kekB7 1ba305 1v54Z0 lolgCO lan4BO lejmBO lublS2 1fzbB2 
1b0pA7 4mt200 1v55MO lolgDO luklC0， lejmD0 lubrS2 lfzbE2 
1b0pB7 1jfwAO 1v55Z0 lolhAO luklD0 lejmF0 lubtS2 ~1fzeB2 
2pdaA7 1fkuA0O 2occM0 lolhBO luklEO 3btel0 lubhS2 1fzeE2 
2pdaB7 1k5kA0 2occZ0 lolhC0 luklF0 3btdI0 lubjS2 1m1jB2 
licfl0 ltac00 locrM0 lolhDO 1bct00 3btgI0 luboS2 Im1jE2 
licfJO 1tbc00 locrZ0 lsaeAO lebdCO 3btqI0 lubuS2 1jfeB2 
113hA0 ltiv00 loccM0 lsaeBO 2pdd00 3bttI0 1h2rS2 1jfeE2 
lgp8A0 lagg00 loccZO lsaeCO 2pde00 3btwl0 lubmS2 1m1jC2 
2gp8A0 loma00 locoMO lsaeDO 1bal00 11d5A0 1h2aS2 lmljF2 
1f02T0 lomb00 locoZ0O lsafAO 1bbl00 lco7I0 le3dA2 1jfeC2 
1n32NO liva00 loczMO lsafBO 2ilk02 1brbI0 1e3dC2 ljfeF2 
1fjgNO loav00 loczZ0 lsafCO 1i]k02 lfakI0 lccl1S2 llwuB2 
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. 1j5eNO loaw00 1jb0J0 lsafDO 11k3A2 11d6A0 2frvA2 llwuE2 
libINO 1qdp00 1jo6AO lsagAO 11k3B2 luubAO 2frvC2 1llwuH2 
1i94N0 lvtx00 lckmA3 lsagBO linr02 1kthAO 2frvE2 llwuK2 
lhrONO 1h59BO lckmB3 lsagCO 1j7vL2 2knt00 2frvG2 1n73B2 
lhnzNO 1lboeAO lcknA3 lsagDO 1vlk02 1knt00 2frvI2 1n73E2 
libkNO lhy9A0 lcknB3 lsahAO 1lqsL2 1kun00 2frvS2 llwuC2 
libmNO 1fre00 1cko03 lsahBO llqsM2 ltfxC0 lfrvA2 llwuF2 
1n33N0 1v54L0 lqqp40 lsahCO ljsuC0 ltfxD0 lfrvC2 llwul2 
lhnwNO 1v54Y0 1bbt40 lsahDO 1f8nA3 ladz00 1frfS2 llwuL2 
1lhnxNO 1v55L0 1fhp40 lsaiA0 lyge03 laapAO liuaAO 1n73C2 
1n36NO0 1v55Y0 1fod40 lsaiB0 lfgrA3 laapBO leytAO 1n73F2 
1n34NO0 2occL0 1fmd40 lsaiC0 lfgoA3 ltawB0 1b0yA0 IrzhH1 
1fjfNO 2occY0 1tme40 lsaiDO lfgtA3 lca0D0 lckuAO lqovH1 
ledxAO locrL0O 2mev40 lsajAO lfgqA3 lca0I0 lckuB0 lry5H1 
lqojAO locrY0 lmec40 1lsajBO lfgmA3 1brcl0 lhrq00 laijH1 
lqojBO loccLO 1v54J0 lsajCO 2sblB3 lirhAO lhrr00 laijT1 
1e52A0 loccY0 1v54W0 1sajD0 1ik3A3 1shp00 lneh00 le6dH1 
1e52B0 locoL0 1v55J0 lsakAO lrovA3 1d0dA0 1js2A0 logvH1 
1g9gA3 locoYO 1v55W0 lsakBO 1jnqA3 1kigIO 1js2B0 119bH1 
1g9jA3 loczL0 2occJO lsakC0 ln8qA3 1tap00 1js2CO 1rzzH1 
lfaeA3 loczY0 2occW0 lsakD0 1no3A3 ltcp00 1js2D0 1rzzT1 
lfbwA3 1v54K0 locrJO lsalAO 1lhu9A3 1dtx00 1hip00 1ds8H1 
lfce03 1v54X0 locrW0 lsalB0 1lnh03 1bf000 1noe00 lds8T1 
1f9dA3 1v55KO0 loccJO lsalCO lbyt03 1dem00 3hipAO ldv3H1 
1fboA3 1v55X0 loccW0 lsalD0 1f8nA2 1den00 3hipBO 1ldv3T1 
1f90A3 2occK0 locoJO 3sakA0 lyge02 1dtk00 3hipC0 ldv6H1 
lllyA3 2occX0 locoW0 3sakB0 lfgrA2 ljc6A0 1hlqA0 1dv6T1 
1llyB3 locrKO loczJO 3sakCO lfgoA2 1bunBO lhlqBO 1lkbyH1 
lllyC3 locrX0 loczW0 3sakD0 lfgtA2 1bik00 lhlqCO irg5H1 
1llyD3 loccK0 1h7dA0 2bbvD0 lfgqA2 1kvdAO lisuA0O 1m3xH1 
lllyE3 loccX0 1v54I0 2bbvE0 lfgmA2 1kvdCo lisuBO lmpsH1 
lllyF3 locoKO 1v54V0 2bbvF0 2sblB2 1lkveAO 1hpi00 laigH1 
112aA3 locoX0 1v5510 1-Nov-00 1ik3A2 1kveCO 2hipAO laigP1 
112aB3 loczKO 1v55V0 1novF0 lrovA2 1hnr00 2hipBO lfnpH1 
112aC3 loczX0 2occl0 InovD0 1jnqA2 1hns00 1pih00 lfnqH1 
112aD3 laltAO 2occ V0 1i40C0 1n8qA2 lgpeA2 1pij00 1s00H1 
112aE3 1f6uA0 locrIO 1i40D0 1no3A2 lgpeB2 libvAO 1s00T1 
112aF3 lmfs00 locrVO 1kmcC0 lhu9A2 lcf3A2 libvC0 1pcrH1 
1lrdr01 laaf00 loccI0 1kmcD0 1lnh02 lgal02 libvE0 1e14H1 
lrajAl la6bBO loccVO 1i51E0 lbyt02 linp01 libtAO ljgyH1 
1qa4A0 1bj6A0 locolO 1i151F0 1j8eA0 luq5A2 libtC0 ljgzH1 
1qa5A0 leskAO locoV0 ltvs00 1d21A0 1jlmA2 libtEO IrqkH1 
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1g3jBO 
1g3jD0 
1n32M2 
1fjgM2 
1j5eM2 
libIM2 
1hr0M2 
1hnzM2 
libmM2 
libkM2 
1n33M2 
lhnwM2 
1hnxM2 
1n36M2 
1n34M2 
1fjfM2 
1ljpwD0 
1jpwE0 
1jpwF0 
1pbyC0 
1jjuCo 
1jmxGO0 
1jmzGO0 
1jj2A3 
1m90C3 
lqvgA3 
1q81C3 
1q82C3 
1k8aC3 
1k9mC3 
1kd1C3 
1n8rC3 
1njiC3 
1q86C3 
1k73C3 
1kc8C3 
lkqsA3 
IqvfA3 
1lm1kC3 
lq7yC3 
lw2bA3 
1s72A3 


1cl4A0 
1j21A0 
1fvl00 
ljypAO 
1n4yA0 
1kst00 
113xA0 
liq2A0 
lmpzA0 
1ro3A0 
2ech00 
1lHeI0 
2rel00 
lrel00 
ludkAO 
laym40 
1Ind2D0 
lncrD0 
1qju40 
1qjx40 
1qjy40 
layn40 
1c8m40 
lnd3D0 
1fpn40 
1hxs40 
2plv40 
1al240 
lar640 
lar740 
lar840 
lar940 
lasj40 
1po140 
1po240 
lvbd40 
leah40 
lpvc40 
lvbb40 
lvbc40 
lvbe40 
1piv40 


loczI0 
loczV0 
1v54G0 
1v54T0 
1v55G0 
1v55T0 
2occG0 
2occT0 
locrGO 
locrT0O 
loccGO 
loccT0O 
locoGO 
locoT0O 
loczGO 
loczT0 
2pspAl 
2pspB1 
1pcp01 
1pspA1 
1pspB1 
le9tA0 
1pe310 
1pe320 
1hi7A0 
1hi7BO 
1ps200 
2pspA2 
2pspB2 
lpspA2 
lpspB2 
1pcp02 
ljouA0 
ljouC0 
1jouE0 
1jmoL0 
letrL0 
lucyJO 
lucyLO 
lucyMO 
1lbbrJO 
1lbbrL0 


1tvt00 
InkzAO 
lnkzC0 
1nkzPE0 
1kzuA0 
1kzuD0 
1kzuG0 
lijdAO 
lijdCO 
lijdEO 
1lghAO 
1lghDO 
1lghGO 
1lghJO 
1a92A0 
1a92B0 
1a92C0 
1a92D0 
laml00 
1ba400 
liytAO 
1ba600 
law600 
125d00 
1cld00 
1f4sP0 
1f5eP0 
2alcA0 
3alcA0 
1pyc00 
lgotGO 
la0rGO 
1tbgE0 
1tbgF0 
1tbgGO 
1tbgHO 
2trcGO 
1b9xBO 
1b9yBO 
1gp2G0 
lgg2G0 
IomwG0 


附 表 5 和 蛋白质 结构 域 序 列 家 族 层 样本 集 


1f5yA1 
11d100 
lcr8A0 
1d2jA0 
1f5yA2 
1ldr00 
1jrfAO 
1k7bA0 
1g6xA0 
1k6uA0 
1qlqA0 
5pti00 
1bpi00 
4pti00 
1f7zI0 
1d0dBO 
1f5r10 
lfy8I0 
6pti00 
3tgkI0 
3tgild 
3btkI0 
1tpal0 
2ptcI0 
2tgpl0 
3tpil0 
1bzxI0 
2hexA0 
2hexBO 
2hexC0 
2hexD0 
2hexE0 
3tgjI0 
1bthP0 
1bthQO 
2kailO 
1bz5A0 
1bz5BO 
1bz5C0 
lbz5D0 
1bz5E0 
lcbwD0 


1ift02 
lifs02 
lbr6A2 
1lrtc02 
lifu02 
lbr5A2 
2aaiA2 
lil4A2 
lil5A2 
lfmp02 
lil3A2 
lil5B2 
lapgA2 
1il9A2 
luq4A2 
lobs02 
lobt02 
1lInA2 
1lmrj02 
lmrk02 
lgisA2 
ltcs02 
lgiuA2 
1qd2A2 
1j4gA2 
1j4gB2 
1j4gC2 
1j4gD2 
InliA2 
lmrg02 
lahc02 
1mrh02 
lmom02 
laha02 
lahb02 
1f8qA2 
1Imri02 
lnioA2 
lbryY2 
lbryZ2 
1cf5A2 
1cf5B2 


libuAO 
libuC0 
libuEO 
libwAO 
libwC0 
libwE0 
lpyaAO 
lpyaCo 
lpyaE0 
1hq6A0 
1hq6C0 
1b8zA0 
1b8zBO 
1p71A0 
1p71B0 
1p78A0 
1p78B0 
1p51A0 
1p51B0 
1p51C0 
1p51D0 
lhuuA0 
lhuuBO 
lhuuCo 
lhueAO 
lhueBO 
1mulA0 
lowfAO 
lowgA0 
louzA0 
lihfAO 
lowfBO 
louzBO 
lowgBO 
1ihfBO 
lexeAO 
lexeBO 
lwtuA0 
lwtuBO 
1jc9A2 
1fib02 
1fid02 


续 表 

IrvjH1 

1f6nH1 
1ljgwH1 
IrgnH1 | 
lumxH1 } 
4rcrH1 
lpssH1 . 
lpstH1 

lystH1 

ljgxH1 
1k61H1 } 
1k6nH1 | 
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2rcrH1 
119jH1 
119jT1 
1jhOH1 
1dxrH1 
6prcH1 
1prcHI1 
5prcH1 
3prcH1 
4prcH1 
2prcH1 
7prcH1 
1r2cH1 
leysH1 
lcl1Al 
1cl1B1 
1cl2A1 
1cl2B1 
2prgC0 


_1g1xCo 


1g1xHO 
1fkaRO 
lekcCO 
lekcHO 
1fjgRO 
1n32R0 
1j5eRO 
liblRO 
1i94R0 
lhrORO 


附 表 5 蛋白 质 结构 域 序列 家 族 层 样本 集 . 199 - 

续 表 
1jj2B3 lvba40 1lbbrM0O lhfeSO lcbwI0 1d&8vA2 2fibA2 1hnzRO 
1s72B3 1d4m40 letsLO lhfeTO 1bhcAO lgikA2 3fib02 libkRO 
1m90D3 lcov40 lettLO 1ioj00 1bhcBO 1jlqA2 lfzcC2 libmRO 
lqvgB3 1h8tDO lavgLO lwdcAO 1lbhcCO 1jlrA2 lfzcF2 1n33R0 
1q81D3 loopDO 1tbrJO IscmAO 1bhcD0 1jlsA2 1ficA2 lhnwRO 
1q82D3 lmqtD0 ltbrL0 1kk8A7 1bhcE0 lqciA2 1ficB2 1lhnxRO 
1k8aD3 lev140 lhrtLO 1b7tA7 1bhcF0 lqciB2 lfzgC2 1n36RO0 
1k9mD3 IncqD0O 1tbqJO 1sr6A7 lbhcGO 1d6aA2 lfzgF2 1n34R0 
1kd1D3 1k5mD0 ltbqL0 1120A7 1bhcHO 1d6aB2 1fzfC2 1fj}fRO 
1n8rD3 1r0940 lvitLO lkqmA7 1bhclI0 1qcgA2 lfzfF2 1laoo00 
1njiD3 lrud40 lvitMO 1s5gA7 lbhcJO lqcgB2 11t9C2 laqq00 
1q86D3 lrue40 JmkxL0 1kk7A7 1b0cA0 lqcjA2 11t9F2 laqr00 
1k73D3 1ruf40 1mkwL0 1kwoA7 1b0cBO 1qcjB2 1ltjC2 lfmyA0 
1kc8D3 1hri40 luvtL0 lqviA7 1b0cCO lpafA2 1tjF2 laqs00 
1kqsB3 1hrv40 lycpJO loe9A6 1b0cD0 1pafB2 1fzaC2 1d6gA0 
lqvfB3 1r0840 lycpLO InkpAO 1b0cE0 lpagA2 lfzaF2 1cf4B0 
1m1kD3 1Irmu40 1id5L0 InkpDO lmtnD0 1pagB2 1fzbC2 1b35D0 
lq7yD3 1rug40 luvuL0 InkpBO ImtnHO lapa02 lfzbF2 lewxA0 
lw2bB3 1ruh40 ltocA0 InkpE0O leawB0 1m2tA2 lfzeC2 ldevB0 
ljeyA3 1rui40 ltocC0 lnlwB0 leawD0 1sz6A2 1fzeF2 ldevD0 
ljeqA3 1ruj40 ltocE0 InlwE0 luuaA0 1puuA2 1fzdA2 1j34C0 
1fqjC0 lvrh40 ltocGO0 lan2A0 10a550 lpumA2 1fzdB2 1j35C0 
1jj2K1 2hwb40 1g72B0 1an2C0 10a650 lonkA2 1fzdC2 1Inl0GO 
1s72L1 2hwc40 1g72D0 LhloAO 1pit00 1tfmA2 1fzdD2 1cfi00 
1m90M1 2r0440 4aahBO 1hloB0 9pti00 1pc8A2 lfzdE2 1mgx00 
lqvgK1 2r0640 4aahDO0 1r05A0 8pti00 loqlA2 lfzdF2 liodGO 
1q81M1 2r0740 1b2nB0 1r05B0 lnag00 lce7A2 1fzdG2 lwhe01 
1q82M1 2rm240 1b2nD0 InlwAO 1fan00 2mllA2 1fzdH2 1lwhf01 
1k8aM1 2rmu40 3aahBO InlwD0 1bpt00 1qi7A2 lfzcB2 1p0sL1 
1k9mM1 2rr140 3aahD0 lam9A0 2tpild labrA2 1fzcE2 1cfh00 
1kd1M1 2rs140 1h4iBO lam9BO 1bti00 lggpA2 lfzgB2 lhykAO 
1In8rM1 2rs340 1h4iD0 lam9CO0 4tpil0 1dm0L2 lfzgE2 1lqu8A0 
InjiM1 2rs540 1h4jBO lam9D0 1jv8A0 1dm0A2 1fzfB2 1b8xA3 
1q86M1 4rhv40 1h4jD0 la0aAO 1jv9A0 1r4qA2 1fzfE2 1lkekA4 
1k73M1 lruc40 1h4jF0O 1a0aB0 laalAO 1r4qL2 11t9B2 1lkekB4 
1kc8M1 1nalD0 1h4jHO lmdyBO laalBO lhwmA2 11t9E2 1b0pA4 
1lkqsK1 lrvf40 llrwB0 lmdyC0 7pti00 1hwnA2 11tjB2 1b0pB4 
lqvfK1 1rhi40 1lrwD0 lmdyD0 3bthI0 lhwoA2 11tjE2 2pdaA4 
lm1kM1 lbev40 lolgAO lmdyAO 3btf10 lhwpA2 1fzaB2 2pdaB4 
lq7yM1 lw2bK1 


说 明 : 附 表 4 中 使 用 的 是 CATH 数据 库 六 字母 代码 


源 自 : http://www.biochem.ucl.ac.uk/bsm/cath/class.html 
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图 8-5 “拓扑 层 的 820 个 样本 的 一 肽 频数 


图 8-3 ”拓扑 层 的 820 个 样本 的 一 肽 频数 输入 
输入 样本 集 的 Jackknife 优 化 结果 


样本 集 的 28 重 交叉 验证 试验 优化 结果 
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图 8-6 ”拓扑 层 的 820 个 样本 的 一 肽 频数 输入 


样本 集 的 默认 参数 C 和 7 的 优化 结果 
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图 8-9 拓扑 层 的 820 个 样本 的 二 肽 频数 输入 
样本 集 的 参数 C 和 y 经 过 微调 后 的 7 
重 交 叉 验 证 试验 优化 结果 
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图 8-7 “拓扑 层 的 820 个 样本 的 一 肽 频数 输入 
样本 集 的 7 重 交叉 验证 试验 优化 结果 
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图 8-11 “拓扑 层 的 820 个 样本 的 三 肽 频数 输入 
样本 集 的 参数 C 和 > 经 过 微调 后 的 了 
重 交 叉 验 证 试验 优化 结果 


1c 


lg(gamma) | | | 


8-14 同 源 超 族 层 的 1572 个 样本 的 一 肽 频 
数 输入 样本 集 的 参数 C 和 7 经 过 微调 后 的 
7 重 交 叉 验 证 试验 优化 结果 
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图 8-18 ARH 1572 MEAS AY = a 
数 输 入 样本 集 的 参数 C 和 7? 经 过 微调 后 的 
7 重 交 叉 验 证 试验 优化 结果 
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图 8-16 
数 输 入 样本 集 的 参数 C Al y 经 过 微调 后 的 
7 重 交 叉 验 证 试验 优化 结果 


同 源 超 族 层 的 1572 个 样本 的 二 肽 频 
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图 8-21 序列 家 族 层 的 6957 个 样本 的 一 肽 频 


数 输 入 样本 集 的 参数 C 和 7 经 过 微调 后 的 
7 重 交 叉 验 证 试验 优化 结果 
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图 8-23 ”序列 家 族 层 的 6957 个 样本 的 二 肽 频 图 8-28 同 源 超 族 层 的 820 个 样本 的 一 肽 频 

数 输入 样本 集 的 参数 C 和 y 经 过 微调 后 的 数 输入 样本 集 的 7 重 交 叉 验 证 试验 优化 结果 
7 重 交 叉 验 证 试验 优化 结果 
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图 8-30 序列 家 族 层 的 820 个 样本 的 一 肽 频数 
输入 样本 集 的 7 重 交 叉 验 证 试验 优化 结 条 
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